<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何用「邏輯回歸」構建金融評分卡模型?(上)

          共 3219字,需瀏覽 7分鐘

           ·

          2020-07-28 15:46


          雖然現(xiàn)在出現(xiàn)了很多性能優(yōu)秀的分類算法,包括svm,RF,GBDT,DNN等,作為最簡單的分類算法,lr依然是工業(yè)界主流的分類算法之一。那么lr到底有什么魔力,即使面對如此眾多的 “高手” 面前,依然屹立不倒呢?


          市面上關于lr?的書籍和文章大部分的講解都是針對?lr一些基本理論或者一些推導公式。掌握這些還遠遠不夠,要想讓lr發(fā)揮其最大效果,必須要有一套科學的、嚴密的數(shù)據(jù)預處理流程。


          和市面上對lr算法的講解不同,本文將以金融評分卡模型為例,講解一整套lr配套的數(shù)據(jù)處理流程,包括數(shù)據(jù)獲取,EDA (探索性數(shù)據(jù)分析),數(shù)據(jù)預處理,到變量篩選,lr模型的開發(fā)和評估,生成評分卡模型。希望大家在閱讀本篇文章之后能夠輕松駕馭lr算法。



          1. 評分卡模型的背景知識


          風控顧名思義就是風險控制,指風險管理者采取各種措施和方法,消滅或減少風險事件發(fā)生的各種可能性,或風險事件發(fā)生時造成的損失。


          信用評分卡模型是最常見的金融風控手段之一,它是指根據(jù)客戶的各種屬性和行為數(shù)據(jù),利用一定的信用評分模型,對客戶進行信用評分,據(jù)此決定是否給予授信以及授信的額度和利率,從而識別和減少在金融交易中存在的交易風險。


          評分卡模型在不同的業(yè)務階段體現(xiàn)的方式和功能也不一樣。按照借貸用戶的借貸時間,評分卡模型可以劃分為以下三種:

          • 貸前:申請評分卡(Application score card),又稱為A卡

          • 貸中:行為評分卡(Behavior score card),又稱為B卡

          • 貸后:催收評分卡(Collection score card),又稱為C卡


          以下為評分卡模型的示意圖:



          那么怎么利用評分卡對用戶進行評分呢?一個用戶總的評分等于基準分加上對客戶各個屬性的評分。以上面的評分卡為例:



          舉個例子某客戶年齡為27歲,性別為男,婚姻狀況為已婚,學歷為本科,月收入為10000,那么他的評分為:


          Q1:?請計算以上評分卡模型的最低分和最高分


          最低分為基準分與每個字段最低分相加:



          最高分為基準分與每個字段最高分相加:



          以上我們基本了解了評分卡模型的具體用法,看到以上評分卡案例之后,相信很多人肯定會有以下三個疑問:


          • 用戶的屬性有千千萬萬個維度,而評分卡模型所選用的字段在30個以下,那么怎樣挑選這些字段呢?

          • 評分法卡模型采用的是對每個字段的分段進行評分,那么怎樣對評分卡進行有效分段呢?

          • 最關鍵的,也是大家最關心的問題是怎樣對字段的每個分段進行評分呢?這個評分是怎么來的?



          2.評分卡模型的開發(fā)


          1.總體流程介紹


          信用評分卡的開發(fā)有一套科學的、嚴密的流程,包括數(shù)據(jù)獲取,EDA,數(shù)據(jù)預處理,到變量篩選,lr模型的開發(fā)和評估,生成評分卡模型以及布置上線和模型監(jiān)測。典型的開發(fā)流程如下圖所示:



          本文僅介紹線下評分卡模型的開發(fā),即數(shù)據(jù)獲取,EDA, 數(shù)據(jù)預處理,變量篩選,lr模型開發(fā),模型評估和生成評分卡。


          2.數(shù)據(jù)獲取


          數(shù)據(jù)的獲取途徑主要有兩個:


          • 金融機構自身字段:例用戶的年齡,戶籍,性別,收入,負債比,在本機構的借款和還款行為等

          • 第三方機構的數(shù)據(jù):如用戶在其他機構的借貸行為,用戶的消費行為數(shù)據(jù)等


          3.EDA(探索性數(shù)據(jù)分析)


          該步驟主要是獲取數(shù)據(jù)的大概情況,例如每個字段的缺失值情況、異常值情況、平均值、中位數(shù)、最大值、最小值、分布情況等。以便制定合理的數(shù)據(jù)預處理方案。


          4.數(shù)據(jù)預處理


          數(shù)據(jù)預處理主要包括數(shù)據(jù)清洗,變量分箱和 WOE 編碼三個步驟。


          4.1數(shù)據(jù)清洗


          數(shù)據(jù)清洗主要是對原始數(shù)據(jù)中臟數(shù)據(jù),缺失值,異常值進行處理。關于對缺失值和異常值的處理,我們采用的方法非常簡單粗暴,即刪除缺失率超過某一閾值(閾值自行設定,可以為30%,50%,90%等)的變量,將剩余變量中的缺失值和異常值作為一種狀態(tài) 。


          4.2變量分箱


          在這里我們回答第二個問題評分卡是怎樣對變量進行分段的,評分卡模型通過對變量進行分箱來實現(xiàn)變量的分段。那么什么是分箱呢?以下為分箱的定義:


          • 對連續(xù)變量進行分段離散化

          • 將多狀態(tài)的離散變量進行合并,減少離散變量的狀態(tài)數(shù)


          常見的分箱類型有以下幾種,下面將一一講解:



          1. 無監(jiān)督分箱


          無監(jiān)督的分箱主要包括以下幾類:


          • 等頻分箱:把自變量按從小到大的順序排列,根據(jù)自變量的個數(shù)等分為k部分,每部分作為一個分箱

          • 等距分箱:把自變量按從小到大的順序排列,將自變量的取值范圍分為k個等距的區(qū)間,每個區(qū)間作為一個分箱

          • 聚類分箱:用k-means聚類法將自變量聚為k類,但在聚類過程中需要保證分箱的有序性


          由于無監(jiān)督分箱僅僅考慮了各個變量自身的數(shù)據(jù)結構,并沒有考慮自變量與目標變量之間的關系,因此無監(jiān)督分箱不一定會帶來模型性能的提升。


          2. 有監(jiān)督分箱


          包括 Split 分箱和 Merge 分箱。


          1)Split 分箱是一種自上而下(即基于分裂)的數(shù)據(jù)分段方法。如下圖所示,Split 分箱和決策樹比較相似,切分點的選擇指標主要有 entropy,gini 指數(shù)和 IV 值等。



          2)Merge 分箱,是一種自底向上(即基于合并)的數(shù)據(jù)離散化方法。如下圖所示為Merge 分箱的示意圖,Merge 分箱常見的類型為Chimerge分箱。



          3)Chimerge 分箱是目前最流行的分箱方式之一,其基本思想是如果兩個相鄰的區(qū)間具有類似的類分布,則這兩個區(qū)間合并;否則,它們應保持分開。Chimerge通常采用卡方值來衡量兩相鄰區(qū)間的類分布情況。


          3. Chimerge的具體算法如下


          1)輸入:分箱的最大區(qū)間數(shù)n


          2)初始化


          • 連續(xù)值按升序排列,離散值先轉化為壞客戶的比率,然后再按升序排列

          • 為了減少計算量,對于狀態(tài)數(shù)大于某一閾值 (建議為100) 的變量,利用等頻分箱進行粗分箱

          • 若有缺失值,則缺失值單獨作為一個分箱


          3)合并區(qū)間


          • 計算每一對相鄰區(qū)間的卡方值

          • 將卡方值最小的一對區(qū)間合并




          • 重復以上兩個步驟,直到分箱數(shù)量不大于n


          4)分箱后處理


          • 對于壞客戶比例為 0 或 1 的分箱進行合并 (一個分箱內(nèi)不能全為好客戶或者全為壞客戶)

          • 對于分箱后某一箱樣本占比超過 95% 的箱子進行刪除

          • 檢查缺失分箱的壞客戶比例是否和非缺失分箱相等,如果相等,進行合并


          5)輸出:分箱后的數(shù)據(jù)和分箱區(qū)間


          Q2:?一般一個評分卡模型的有效持續(xù)時間是 1個月左右甚至更長時間,中間也許會有一些客戶的數(shù)據(jù)發(fā)生變化,比如一個月之內(nèi)突然換工作,工資上漲等等,針對這種情況,我們該怎樣處理呢?


          這里我們需要假設客戶在短期內(nèi)屬性變化不會太大,即使客戶的屬性變化,只要在同一分箱中,依然會給這個客戶相同的分數(shù)。舉例來說:對于工資我們可以劃分為5箱,即<3000, 3000-5000, 5000-8000, 8000-12000, >12000,假設一個客戶的工資為9000,在一個月內(nèi)工資上漲,那我們就假設這個客戶的工資上漲之后不會超過12000,也就是說依然在8000-12000分箱中。


          這樣在考慮客戶工資變化的前提下,不會因為客戶工資的發(fā)生變化而變成了另外一個人,保證了模型的穩(wěn)定性。


          Q3:上文說到將變量中的缺失值作為一種狀態(tài)是什么意思?


          這里的意思是說讓缺失值單獨分為一箱。


          Q4:比如年齡變量中出現(xiàn)“500歲”這種異常字段該怎樣處理?


          對于年齡特征我們劃分為4段,即18-25, 25-35, 35-55, > 55,我們可以直接把500劃分到>55這一個分箱中。另外我們也可以通過一些手段檢測出異常值,將異常值單獨分為一箱。


          總結一下特征分箱的優(yōu)勢:

          • 特征分箱可以有效處理特征中的缺失值和異常值

          • 特征分箱后,數(shù)據(jù)和模型會更穩(wěn)定

          • 特征分箱可以簡化邏輯回歸模型,降低模型過擬合的風險,提高模型的泛化能力

          • 將所有特征統(tǒng)一變換為類別型變量

          • 分箱后變量才可以使用標準的評分卡格式,即對不同的分段進行評分



          End.
          作者:August
          來源:知乎專欄
          本文為轉載分享,如侵權請聯(lián)系后臺刪除

          瀏覽 68
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  九九无码专区免费喷水 | 色老板免费视频在线观看 | 国产男女日bb的视频 | 天天插天天射 | 啪啪在线观看 |