原創(chuàng)|手把手教你構(gòu)建評分卡模型
共 6130字,需瀏覽 13分鐘
·
2024-05-15 17:00
作者:胡赟豪 本文約2800字,建議閱讀5分鐘
本文介紹了構(gòu)建評分卡模型。
是否有車 |
否 |
0 |
是 |
10 |
|
是否有房 |
否 |
0 |
是 |
30 |
|
是否已婚 |
否 |
0 |
是 |
10 |
|
年齡 |
[0,25) |
0 |
[25,40) |
5 |
|
[40~55) |
10 |
|
[55,+∞) |
5 |
|
學歷 |
初中及以下 |
0 |
高中 |
5 |
|
本科 |
10 |
|
碩士及以上 |
20 |
|
月均收入 |
0~3000 |
0 |
3000~6000 |
5 |
|
6000~10000 |
10 |
|
10000~20000 |
15 |
|
20000+ |
20 |
為分箱i中違約客戶占所有樣本中違約客戶的比例
為分箱i中按時償還客戶占所有樣本中違約客戶的比例
為分箱i中違約客戶人數(shù)
為分箱i中按時償還的客戶人數(shù)
為所有樣本中違約客戶人數(shù)
為所有樣本中按時償還的客戶人數(shù)
則分箱i的WOE取值為
通過公式可以看出,分箱中違約客戶比例越高,WOE值越大,理論上 。當分箱i中違約客戶占比高于總體時WOE>0,小于總體時WOE<0;違約客戶的占比和總體一致時,WOE值為0,分箱沒有預(yù)測能力
從上面的式子可以看出,WOE值能夠反映分箱對目標預(yù)測的貢獻情況,在分箱的分類信息“1”的基礎(chǔ)上增加該分箱的權(quán)重信息,因此WOE被稱為“證據(jù)權(quán)重”。注意在計算時,即使是缺失值組成的分箱也可以算出一個WOE分數(shù)。
但是WOE的計算為什么是這個形式?一種解釋是為了更加適配后續(xù)的logistic建模,從以下推導中可以看出,WOE分數(shù)和預(yù)測目標的對數(shù)幾率的變化近似線性相關(guān)。
Logistic模型公式:,其中p為客戶違約概率,為模型的參數(shù)向量
,其中為分箱i中客戶違約概率,為總體的違約對數(shù)幾率。
五、變量選擇
變量選擇的目標主要有兩個,一個是篩選出預(yù)測能力強的變量,另一個是處理多重共線性問題。
評分卡模型中常用IV值(信息價值,information value)來表示變量的預(yù)測能力,變量的IV值是其所有分箱的IV值之和:
由于公式中的兩個項同向,故IV≥0,IV值越大,變量對目標的預(yù)測能力越強。
多重共線性則可以結(jié)合變量間相關(guān)系數(shù)、VIF值等進行判斷,在多個共線性較高的變量中,可以優(yōu)先保留預(yù)測能力較高的變量。
六、模型訓練與評估
訓練前首先對樣本進行樣本集和測試集的拆分。評分卡模型本質(zhì)上是一個二分類預(yù)測模型,使用logistic模型來估計參數(shù),接下來只需要將篩選后的變量的分箱WOE值輸入到模型中,完成模型的訓練即可。在測試集上可以計算模型的AUC、KS等指標,來評估模型效果。
七、評分卡轉(zhuǎn)換
至此還剩下最后一個問題:怎樣將模型的結(jié)果轉(zhuǎn)化為文章開頭那樣的評分卡里的分數(shù)?
例子中評分卡的分數(shù)實際上表達的是違約的對數(shù)幾率大?。ㄒ驗橄M謹?shù)大小和違約幾率負相關(guān)所以加入負號):
假設(shè)向量x取某個值時,違約幾率為odds0,則此時得分為;再假設(shè)幾率翻倍時,有,其中PDO表示違約幾率翻倍時分數(shù)的變動幅度??梢詫⒁陨蟽蓚€式子聯(lián)成一個方程組,在人工設(shè)定基礎(chǔ)分數(shù)s0、基礎(chǔ)幾率odds0和PDO的基礎(chǔ)上即可解出A、B大小。
在式子中代入A、B后,就可以將各個變量的分箱得分計算出來,生成評分卡了。注意此時評分卡得分的閾值范圍很可能并不是0~100這樣比較規(guī)整的區(qū)間,但可以通過分數(shù)的映射再進行一些調(diào)整得到。
作者簡介
胡赟豪,碩士畢業(yè)于清華大學經(jīng)濟管理學院,現(xiàn)從事于互聯(lián)網(wǎng)數(shù)據(jù)科學相關(guān)工作,主要技術(shù)探索方向為機器學習及其在商業(yè)中的應(yīng)用。
數(shù)據(jù)派研究部介紹
數(shù)據(jù)派研究部成立于2017年初,以興趣為核心劃分多個組別,各組既遵循研究部整體的知識分享和實踐項目規(guī)劃,又各具特色:
算法模型組:積極組隊參加kaggle等比賽,原創(chuàng)手把手教系列文章;
調(diào)研分析組:通過專訪等方式調(diào)研大數(shù)據(jù)的應(yīng)用,探索數(shù)據(jù)產(chǎn)品之美;
系統(tǒng)平臺組:追蹤大數(shù)據(jù)&人工智能系統(tǒng)平臺技術(shù)前沿,對話專家;
自然語言處理組:重于實踐,積極參加比賽及策劃各類文本分析項目;
制造業(yè)大數(shù)據(jù)組:秉工業(yè)強國之夢,產(chǎn)學研政結(jié)合,挖掘數(shù)據(jù)價值;
數(shù)據(jù)可視化組:將信息與藝術(shù)融合,探索數(shù)據(jù)之美,學用可視化講故事;
網(wǎng)絡(luò)爬蟲組:爬取網(wǎng)絡(luò)信息,配合其他各組開發(fā)創(chuàng)意項目。
點擊文末“閱讀原文”,報名數(shù)據(jù)派研究部志愿者,總有一組適合你~
轉(zhuǎn)載須知
如需轉(zhuǎn)載,請在開篇顯著位置注明作者和出處(轉(zhuǎn)自:數(shù)據(jù)派THUID:DatapiTHU),并在文章結(jié)尾放置數(shù)據(jù)派醒目二維碼。有原創(chuàng)標識文章,請發(fā)送【文章名稱-待授權(quán)公眾號名稱及ID】至聯(lián)系郵箱,申請白名單授權(quán)并按要求編輯。
未經(jīng)許可的轉(zhuǎn)載以及改編者,我們將依法追究其法律責任。
點擊“閱讀原文”加入組織~
