<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          原創(chuàng)|手把手教你構(gòu)建評分卡模型

          共 6130字,需瀏覽 13分鐘

           ·

          2024-05-15 17:00


             
          作者:胡赟豪????

          本文約2800字,建議閱讀5分鐘

          本文介紹了構(gòu)建評分卡模型。???


          一、背景

          在各種機器學習、深度學習模型快速發(fā)展的當下,評分卡模型作為一種可解釋機器學習模型,仍然在金融、營銷等領(lǐng)域被廣泛使用。這一模型通過構(gòu)建一組基于輸入變量的評分規(guī)則,能夠直觀地對樣本進行評分,非常易于理解和操作。舉一個金融信用風險評分卡的例子,要判斷一筆貸款能夠被按時償還的風險大小,可以設(shè)置這樣一個評分卡:


          是否有車

          0

          10

          是否有房

          0

          30

          是否已婚

          0

          10

          年齡

          [0,25)

          0

          [25,40)

          5

          [40~55)

          10

          [55,+∞)

          5

          學歷

          初中及以下

          0

          高中

          5

          本科

          10

          碩士及以上

          20

          月均收入        

          0~3000

          0

          3000~6000

          5

          6000~10000

          10

          10000~20000

          15

          20000+

          20


          這個評分卡的得分范圍是[0,100],分數(shù)越高,違約的風險就越小。對于一個有房有車,有著本科學歷和15000元月收入的30歲已婚申請者,按照評分卡可以計算其得分:10+30+10+5+10+15=80分,據(jù)此風險評估人員可以快速地判斷出該申請者的信用風險較小。
                     
          評分卡的強可解釋性一方面使其能夠快速給出結(jié)論,另一方面也能給出原因。通過查看每個評分項的得分,我們也可以清楚看到申請者在哪些項目扣了多少分。在一些其他場景下我們?nèi)绻o予被評分人建議,也可以清楚地看到哪一項提升到什么程度,對應(yīng)能夠增加多少得分。
                     
          那么評分卡為什么最后是選用這些變量?這些分數(shù)又是怎么計算出來的呢?接下來我們一起看看評分卡的構(gòu)建過程。
                     
          二、數(shù)據(jù)清洗

          在上面的例子中,模型的目標是申請者是否會按時償還,特征則是每個申請者的個人信息。在收集好樣本數(shù)據(jù)之后,首先需要對數(shù)據(jù)進行清洗,包括異常值、缺失值處理等。

          異常值可以基于規(guī)則或者離群值檢測來發(fā)現(xiàn),例如發(fā)現(xiàn)年齡為負數(shù)、收入高于平均值的X%(X可以自行調(diào)整)等情況的樣本,可以予以剔除,避免干擾后續(xù)的模型構(gòu)建。   

          缺失值則可以用平均數(shù)、相似樣本填充等方法進行填補,也可以直接保留缺失狀態(tài),在后續(xù)的建模中作為單獨的一個分箱。
                     
          三、分箱

          評分卡模型的一大特點是對每個輸入變量的不同分箱分別進行打分。例如在上面例子中,我們注意到每個輸入變量都是離散的。即使是像收入、年齡這樣的連續(xù)型變量,也是先進行分箱(分成不同的取值區(qū)間)后再進行打分,因此模型最后的得分也是離散的。
                     
          分箱的常見方法包括:
          (1)等距分箱
          將變量可能取值的區(qū)間分為k個相同大小的小區(qū)間,例如連續(xù)區(qū)間[0,3]拆分為[0,1)和[1,2)、[2,3]三個分箱。

          (2)等頻分箱
          將變量可能取值的區(qū)間分為k個區(qū)間(可以不同大?。?,每個區(qū)間內(nèi)的樣本頻率相同,例如[0,3]拆分為[0,1)和[1,3]兩個區(qū)間,但樣本中在兩個區(qū)間內(nèi)的取值頻率相同。

          (3)最優(yōu)分箱
          最優(yōu)分箱方法是有監(jiān)督的,需要樣本的標簽信息,使用類似于決策樹的方法,通過計算信息熵增益等指標來決定拆分點。
                     
          四、WOE編碼

          分箱之后輸入變量變成一系列取值為0或1的變量分箱,接下來我們需要對它們進行有監(jiān)督的WOE(證據(jù)權(quán)重,weight of evidence)編碼,將“1”轉(zhuǎn)換成其他更加有預(yù)測能力的數(shù)字。   

          假設(shè)樣本標簽中違約為1,按時償還為0,則對于變量分箱i,定義以下變量:

          ?

          為分箱i中違約客戶占所有樣本中違約客戶的比例

          為分箱i中按時償還客戶占所有樣本中違約客戶的比例

          為分箱i中違約客戶人數(shù)

          為分箱i中按時償還的客戶人數(shù)

          為所有樣本中違約客戶人數(shù)

          為所有樣本中按時償還的客戶人數(shù)

                     

          則分箱i的WOE取值為

           


          通過公式可以看出,分箱中違約客戶比例越高,WOE值越大,理論上 。當分箱i中違約客戶占比高于總體時WOE>0,小于總體時WOE<0;違約客戶的占比和總體一致時,WOE值為0,分箱沒有預(yù)測能力


          從上面的式子可以看出,WOE值能夠反映分箱對目標預(yù)測的貢獻情況,在分箱的分類信息“1”的基礎(chǔ)上增加該分箱的權(quán)重信息,因此WOE被稱為“證據(jù)權(quán)重”。注意在計算時,即使是缺失值組成的分箱也可以算出一個WOE分數(shù)。

                     

          但是WOE的計算為什么是這個形式?一種解釋是為了更加適配后續(xù)的logistic建模,從以下推導中可以看出,WOE分數(shù)和預(yù)測目標的對數(shù)幾率的變化近似線性相關(guān)。   


          Logistic模型公式:,其中p為客戶違約概率,為模型的參數(shù)向量

           ,其中為分箱i中客戶違約概率,為總體的違約對數(shù)幾率。


          ?

          五、變量選擇


          變量選擇的目標主要有兩個,一個是篩選出預(yù)測能力強的變量,另一個是處理多重共線性問題。


          評分卡模型中常用IV值(信息價值,information value)來表示變量的預(yù)測能力,變量的IV值是其所有分箱的IV值之和:


          由于公式中的兩個項同向,故IV≥0,IV值越大,變量對目標的預(yù)測能力越強。

                     

          多重共線性則可以結(jié)合變量間相關(guān)系數(shù)、VIF值等進行判斷,在多個共線性較高的變量中,可以優(yōu)先保留預(yù)測能力較高的變量。

                     

          六、模型訓練與評估


          訓練前首先對樣本進行樣本集和測試集的拆分。評分卡模型本質(zhì)上是一個二分類預(yù)測模型,使用logistic模型來估計參數(shù),接下來只需要將篩選后的變量的分箱WOE值輸入到模型中,完成模型的訓練即可。在測試集上可以計算模型的AUC、KS等指標,來評估模型效果。   

                     

          七、評分卡轉(zhuǎn)換


          至此還剩下最后一個問題:怎樣將模型的結(jié)果轉(zhuǎn)化為文章開頭那樣的評分卡里的分數(shù)?


          例子中評分卡的分數(shù)實際上表達的是違約的對數(shù)幾率大?。ㄒ驗橄M謹?shù)大小和違約幾率負相關(guān)所以加入負號):

                     

          假設(shè)向量x取某個值時,違約幾率為odds0,則此時得分為;再假設(shè)幾率翻倍時,有,其中PDO表示違約幾率翻倍時分數(shù)的變動幅度??梢詫⒁陨蟽蓚€式子聯(lián)成一個方程組,在人工設(shè)定基礎(chǔ)分數(shù)s0、基礎(chǔ)幾率odds0和PDO的基礎(chǔ)上即可解出A、B大小。


          在式子中代入A、B后,就可以將各個變量的分箱得分計算出來,生成評分卡了。注意此時評分卡得分的閾值范圍很可能并不是0~100這樣比較規(guī)整的區(qū)間,但可以通過分數(shù)的映射再進行一些調(diào)整得到。


          編輯:王菁

          作者簡介

          胡赟豪,碩士畢業(yè)于清華大學經(jīng)濟管理學院,現(xiàn)從事于互聯(lián)網(wǎng)數(shù)據(jù)科學相關(guān)工作,主要技術(shù)探索方向為機器學習及其在商業(yè)中的應(yīng)用。

          數(shù)據(jù)派研究部介紹




          數(shù)據(jù)派研究部成立于2017年初,以興趣為核心劃分多個組別,各組既遵循研究部整體的知識分享實踐項目規(guī)劃,又各具特色:


          算法模型組:積極組隊參加kaggle等比賽,原創(chuàng)手把手教系列文章;

          調(diào)研分析組:通過專訪等方式調(diào)研大數(shù)據(jù)的應(yīng)用,探索數(shù)據(jù)產(chǎn)品之美;

          系統(tǒng)平臺組:追蹤大數(shù)據(jù)&人工智能系統(tǒng)平臺技術(shù)前沿,對話專家;

          自然語言處理組:重于實踐,積極參加比賽及策劃各類文本分析項目;

          制造業(yè)大數(shù)據(jù)組:秉工業(yè)強國之夢,產(chǎn)學研政結(jié)合,挖掘數(shù)據(jù)價值;

          數(shù)據(jù)可視化組:將信息與藝術(shù)融合,探索數(shù)據(jù)之美,學用可視化講故事;

          網(wǎng)絡(luò)爬蟲組:爬取網(wǎng)絡(luò)信息,配合其他各組開發(fā)創(chuàng)意項目。


          點擊文末“閱讀原文”,報名數(shù)據(jù)派研究部志愿者,總有一組適合你~



          轉(zhuǎn)載須知


          如需轉(zhuǎn)載,請在開篇顯著位置注明作者和出處(轉(zhuǎn)自:數(shù)據(jù)派THUID:DatapiTHU),并在文章結(jié)尾放置數(shù)據(jù)派醒目二維碼。有原創(chuàng)標識文章,請發(fā)送【文章名稱-待授權(quán)公眾號名稱及ID】至聯(lián)系郵箱,申請白名單授權(quán)并按要求編輯。

          未經(jīng)許可的轉(zhuǎn)載以及改編者,我們將依法追究其法律責任。



          點擊“閱讀原文”加入組織~



          瀏覽 41
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  二本道一区二区三区免费视频 | 青青草原在线视频 | 中文字幕精品视频 | 波多野结衣无码一区 | 爱福利一区二区三区 |