如何量化樣本偏差對(duì)信貸風(fēng)控模型的影響?

1. 信貸業(yè)務(wù)中的樣本偏差來(lái)源
2. 信貸業(yè)務(wù)中的風(fēng)控模型術(shù)語(yǔ)
3. 拒絕推斷方法概述
4. 仿真實(shí)驗(yàn)設(shè)計(jì)評(píng)價(jià)
5. 總結(jié)
信貸業(yè)務(wù)中的樣本偏差來(lái)源
信貸業(yè)務(wù)大致分為營(yíng)銷獲客、貸前授信、貸中動(dòng)支等幾個(gè)環(huán)節(jié)。如圖1所示,每一個(gè)環(huán)節(jié)都有一定的風(fēng)控措施,用以篩選客群。在互金行業(yè)信貸業(yè)務(wù)中,目前授信通過(guò)率大致在10%~30%,其中10%+又是較為普遍的數(shù)字。因此,大約90%的客戶便失去了授信資格,也就沒(méi)有借款機(jī)會(huì)。

在風(fēng)控模型迭代時(shí),我們只能基于還款表現(xiàn)來(lái)定義樣本的好壞,并組成建模樣本。一些無(wú)法獲知其還款表現(xiàn)的樣本,造成了樣本偏差。失去還款表現(xiàn)的樣本主要來(lái)源自以下幾類:
授信拒絕客戶
授信通過(guò)但從未動(dòng)支的睡眠戶
動(dòng)支拒絕客戶
放款失敗客戶
我們補(bǔ)充介紹圖1中的二次風(fēng)控業(yè)務(wù)概念。其誕生背景是,在聯(lián)合貸業(yè)務(wù)中,銀監(jiān)會(huì)要求資金方(銀行、消費(fèi)金融等機(jī)構(gòu))必須承擔(dān)自主風(fēng)控能力,不可將核心風(fēng)控交付上游資產(chǎn)方等第三方機(jī)構(gòu)完成。上游資產(chǎn)方一般要求資金方的通過(guò)率不低于某個(gè)值(如80%)。
如圖2所示,對(duì)于第一家資金方拒絕的借款申請(qǐng)訂單,仍會(huì)路由給下一家,直至放款通過(guò)。因此,對(duì)于在金融平臺(tái)端便擁有借款申請(qǐng)訂單的所有貸后表現(xiàn)數(shù)據(jù)。

信貸業(yè)務(wù)中的風(fēng)控模型術(shù)語(yǔ)
為提高自動(dòng)化審批效率,我們?cè)跇I(yè)務(wù)實(shí)踐中大量借助模型來(lái)對(duì)客戶排序、篩選、分群,并對(duì)不同人群制定不同的策略。大數(shù)據(jù)風(fēng)控的套路都大同小異,貴在精細(xì)化運(yùn)營(yíng)。
模型并不神秘,其本質(zhì)是從歷史樣本中擬合輸入和輸出之間的關(guān)系,并將該規(guī)律應(yīng)用于新輸入的預(yù)測(cè)。模型的優(yōu)勢(shì)在于變量含義清晰(目標(biāo)變量決定了模型分?jǐn)?shù)的含義),區(qū)分能力強(qiáng)(融合了大量弱變量的信息),能讓決策更為科學(xué)。
為便于理解,我們約定特征向量
,目標(biāo)變量
。同時(shí),定義一些模型術(shù)語(yǔ)概念:
AR(Accept Reject)模型:以是否通過(guò)定義Y (1 = accept,0 = reject),以全量申請(qǐng)樣本構(gòu)建,用以預(yù)測(cè)
。KGB(Known Good Bad)模型:以是否違約定義Y (1 = bad,0 = good),以已知好壞的通過(guò)樣本構(gòu)建,用以預(yù)測(cè)
。AGB(All Good Bad)模型:以是否違約定義Y (1 = bad,0 = good),以已知好壞的通過(guò)樣本和(假設(shè)真實(shí)已知好壞)拒絕樣本聯(lián)合構(gòu)建,用以預(yù)測(cè)
。IAGB(Inferred All Good Bad)模型:以是否違約定義Y(1 = bad,0 = good),以已知好壞的通過(guò)樣本和推斷好壞的拒絕樣本聯(lián)合構(gòu)建,用以預(yù)測(cè)
。
注意,"通過(guò)"的概念包括貸前授信申請(qǐng)通過(guò)、貸中借款申請(qǐng)通過(guò)、放款申請(qǐng)通過(guò)等任意一種,并不局限于授信通過(guò)。

該如何理解AR模型和KGB模型呢?
(1)AR模型刻畫了金融機(jī)構(gòu)對(duì)客戶資質(zhì)的認(rèn)可度。認(rèn)可度這個(gè)詞比較抽象,你也可以理解為是否是目標(biāo)客群。雖然當(dāng)前授信策略可基于風(fēng)險(xiǎn)、收入(償債能力)、利潤(rùn)等多種角度,但主流依據(jù)仍然是風(fēng)險(xiǎn)維度。因此,AR模型將線上復(fù)雜的一套風(fēng)控系統(tǒng)進(jìn)行了抽象,對(duì)風(fēng)險(xiǎn)也具有較好的排序性。在實(shí)踐中,AR模型的KS基本都能達(dá)到50%以上。
(2)KGB模型則是對(duì)AR模型在風(fēng)險(xiǎn)識(shí)別上的補(bǔ)充。打個(gè)比方,如果AR分在0~100分,分?jǐn)?shù)越高,代表通過(guò)的概率越高。如果按歷史通過(guò)的標(biāo)準(zhǔn)制定閾值,通過(guò)的標(biāo)準(zhǔn)為80分。但是,由于這個(gè)AR模型并非十全十美,在通過(guò)的客群上,我們發(fā)現(xiàn)仍存在一些風(fēng)險(xiǎn)較高的客戶。因此,我們基于通過(guò)樣本構(gòu)建KGB模型,對(duì)客群再次篩選,從而不斷降低通過(guò)客群的風(fēng)險(xiǎn)水平。
(3)AR模型和KGB模型在各自建模樣本上是無(wú)偏的。AR模型在全量樣本上是無(wú)偏的,KGB模型在通過(guò)樣本上是無(wú)偏的。但是,KGB相對(duì)于全量樣本是有偏的。
拒絕推斷方法概述
如圖3所示,下限是KGB模型,上限是AGB模型,經(jīng)過(guò)拒絕推斷改良后的模型稱為IAGB模型。于是,問(wèn)題的核心在于如何引入正向信息,讓IAGB模型逼近上限。我們很難評(píng)估信息是正向,還是負(fù)向的。因此,IAGB模型的性能可能會(huì)反而比不上KGB模型,這就是推斷好壞標(biāo)簽所帶來(lái)的風(fēng)險(xiǎn)。
若能準(zhǔn)確推斷每個(gè)拒絕樣本的真實(shí)標(biāo)簽,那么IAGB模型就等于AGB模型。很可惜,現(xiàn)實(shí)中不可能做到這點(diǎn),我們只能在KGB模型的基礎(chǔ)上通過(guò)某些方法將其修正為IAGB模型。
為更直觀理解這一點(diǎn),我們假設(shè)只采用一個(gè)多頭借貸變量來(lái)建立模型。理由是,多頭變量是相對(duì)客觀,且具有明確業(yè)務(wù)含義的變量。一般情況下,多頭變量取值越大,違約風(fēng)險(xiǎn)越高。這能幫助我們清晰看到差異性。
我們對(duì)放款樣本和全量樣本設(shè)置相同的分箱邊界,統(tǒng)計(jì)各分箱內(nèi)的WOE值,并通過(guò)線性模型擬合。如圖4所示,全量樣本上的WOE曲線(橙色)更為陡峭,而放款樣本上的WOE曲線(藍(lán)色)則相對(duì)平緩。這兩根曲線之間的差異性,就是KGB模型與AGB模型之間差異的體現(xiàn)。
而如何將Accept WOE曲線修正為All WOE曲線,就是我們所要探索的核心問(wèn)題。

回顧在《風(fēng)控建模中的樣本偏差與拒絕推斷》中,我們介紹了很多拒絕推斷(reject inference)方法的操作步驟。在本文中,筆者選擇了3個(gè)有代表性的方法,希望從更高的視角分析背后的思想。
方案一: Re-weighting(重新加權(quán)法)
重新加權(quán)法只是調(diào)整了通過(guò)的好壞樣本的權(quán)重,并沒(méi)有把拒絕樣本加入建模樣本。基本思想包括:
為更精細(xì)賦值推斷的調(diào)整因子,可將樣本經(jīng)過(guò)一定風(fēng)險(xiǎn)排序后,劃分多個(gè)區(qū)間后,對(duì)每個(gè)區(qū)間分別賦予一個(gè)調(diào)整因子。
拒絕樣本的風(fēng)險(xiǎn)高于通過(guò)樣本,這意味著調(diào)整因子都大于1。在當(dāng)前風(fēng)控系統(tǒng)有效的前提下,該假設(shè)成立。
其操作步驟為:
在通過(guò)樣本上構(gòu)建KGB模型,并對(duì)全量樣本打分
。將全量樣本按
降序排列,等頻分箱,統(tǒng)計(jì)每個(gè)箱中通過(guò)和拒絕樣本數(shù)。計(jì)算每個(gè)分箱中通過(guò)的好壞樣本的權(quán)重

引入樣本權(quán)重,利用通過(guò)好壞樣本重新構(gòu)建KGB模型。
符號(hào)含義可參考下表。

利用該方法,我們對(duì)WOE值進(jìn)行調(diào)整,得到圖5。對(duì)比圖4和圖5,可以發(fā)現(xiàn)相對(duì)于Accept WOE曲線,Cal WOE曲線與All WOE曲線更為接近。說(shuō)明拒絕推斷后的模型效果確實(shí)帶來(lái)一定的改善。

方案二: 模糊展開(kāi)法
由于KGB模型在通過(guò)樣本上是無(wú)偏的,我們只需要對(duì)拒絕樣本進(jìn)行一定的修正。如果說(shuō)直接賦予0或1的標(biāo)簽,推斷失誤的風(fēng)險(xiǎn)較大。那么,我們就引入權(quán)重項(xiàng)來(lái)模糊表達(dá)?;谝陨纤枷耄洳僮鞑襟E為:
在通過(guò)樣本上構(gòu)建KGB模型,得到
,并對(duì)拒絕樣本打分。將每條拒絕樣本復(fù)制為不同類別,不同權(quán)重的兩條:一條標(biāo)記為1,權(quán)重為
。另一條標(biāo)記為0,權(quán)重為
;利用變換后的拒絕樣本和放貸已知好壞樣本(類別不變,權(quán)重設(shè)為1)建立AGB模型。

方案三: 兩階段法(雙評(píng)分卡)
根據(jù)全概率公式,我們可以將
表達(dá)為:

其中:
,這是AR模型的預(yù)測(cè)結(jié)果。
,這是KGB模型的預(yù)測(cè)結(jié)果。
因此,如果能獲知
,也就是根據(jù)拒絕樣本也構(gòu)建一個(gè)"KGB"模型,問(wèn)題便可迎刃而解。
根據(jù)式(1)可知,IAGB模型相對(duì)于KGB模型而言,唯一可以帶來(lái)增量信息的便是AR模型分。AR分是唯一連接通過(guò)樣本和拒絕樣本之間的橋梁。我們需要思考該如何利用這部分信息。
如圖7所示,AR分和KGB分在通過(guò)樣本上都是無(wú)偏的,因此可在通過(guò)樣本上回歸擬合兩者的關(guān)系,得到
。我們將得到的回歸函數(shù)
應(yīng)用在拒絕樣本上。
但這個(gè)函數(shù)
仍然是有偏的,因?yàn)槠淙匀恢挥玫搅送ㄟ^(guò)樣本上的信息。因此,接下來(lái)我們?cè)倮媚:归_(kāi)法建立AGB模型。

仿真實(shí)驗(yàn)設(shè)計(jì)評(píng)價(jià)
這些拒絕推斷方法可能大家都已經(jīng)熟悉,最大的疑惑在于——既然拒絕樣本都失去表現(xiàn),那如何實(shí)踐驗(yàn)證效果呢?打開(kāi)思維的束縛,樣本偏差是相對(duì)的,任何樣本集經(jīng)過(guò)排序后總能創(chuàng)造出偏差條件。
借鑒二次風(fēng)控的做法,我們可以在放款通過(guò)的樣本上構(gòu)建實(shí)驗(yàn)。對(duì)于滿足足夠長(zhǎng)的還款表現(xiàn)期的放款樣本,都擁有已知的貸后表現(xiàn)。我們一共設(shè)計(jì)了3個(gè)實(shí)驗(yàn)。
實(shí)驗(yàn)一:驗(yàn)證樣本偏差對(duì)KGB模型的影響。
1. 將100%的放款樣本作為全量總體,只考慮歷史訓(xùn)練的風(fēng)險(xiǎn)分(online score)當(dāng)作線上風(fēng)控系統(tǒng)唯一的決策變量,對(duì)樣本進(jìn)行排序,并設(shè)置通過(guò)率為30%(或其他比例),人為制造樣本偏差。事實(shí)上風(fēng)控系統(tǒng)是一個(gè)特別復(fù)雜的系統(tǒng),包括客群細(xì)分策略、資信數(shù)據(jù)查詢策略等。這里抽象為一個(gè)模塊以簡(jiǎn)化流程。
2. 利用2020年5~6月通過(guò)的30%樣本(訓(xùn)練集)建立KGB模型,并在2020年7~8月(測(cè)試集)上進(jìn)行評(píng)估,作為模型上線應(yīng)用的模擬。
3. 在2020年7~8月(測(cè)試集)上,根據(jù)online_score排序后,設(shè)置不同的通過(guò)率(30% ~ 100%),并用KGB模型在通過(guò)樣本上測(cè)算KS,觀察KS的效果變化。
事實(shí)上,前文中所說(shuō)的通過(guò)樣本和全量樣本也都是如此設(shè)計(jì)而來(lái)。

如圖8所示,以上操作步驟真實(shí)反映了我們?nèi)粘5鶮GB模型的過(guò)程,即每次都只能在通過(guò)樣本上構(gòu)建模型,并在通過(guò)樣本上驗(yàn)證模型效果。實(shí)驗(yàn)結(jié)果如圖9所示。為了量化樣本偏差的影響,我們采用KS和PSI兩項(xiàng)指標(biāo)。
KS指標(biāo):衡量模型對(duì)好壞的區(qū)分度。由于測(cè)試集上全量樣本都有已知的好壞標(biāo)簽,對(duì)于通過(guò)客群計(jì)算KS。KS越大,代表模型區(qū)分度越好。
PSI指標(biāo):衡量模型應(yīng)用樣本相對(duì)于建模樣本的分?jǐn)?shù)偏差。PSI越大,說(shuō)明樣本群體分?jǐn)?shù)分布差異性越大。

我們發(fā)現(xiàn),在對(duì)標(biāo)30%的通過(guò)樣本上,模型的KS達(dá)到最高(19%~20%),而隨著樣本偏差增大,KS開(kāi)始下降,直至16%。這個(gè)現(xiàn)象說(shuō)明:
如果只是利用KGB模型的排序性,拒絕推斷并不是必需環(huán)節(jié),因?yàn)樽饔玫饺繕颖旧希m然KS會(huì)下降,即便我們不知道衰減程度有多大,但可能仍然具有一定區(qū)分度。
將上述結(jié)論進(jìn)一步推廣:在頭部?jī)?yōu)質(zhì)客群上所建立的模型,在全量客群上效果自然會(huì)衰減。這解釋了用單一機(jī)構(gòu)的Y所建立的KGB模型,在其他機(jī)構(gòu)上可能完全失效的現(xiàn)象。如果你測(cè)試過(guò)三方數(shù)據(jù)商提供的評(píng)分產(chǎn)品,你就會(huì)有更深的體會(huì)。
實(shí)驗(yàn)二:探索AR與KGB模型混合使用方法。
模型設(shè)計(jì)時(shí)一定要預(yù)先考慮使用場(chǎng)景。在模型應(yīng)用環(huán)節(jié),我們提出了3種方案:
(1)AR模型和KGB模型交叉使用,組成聯(lián)合分布,篩選出目標(biāo)客群。這是因?yàn)锳R模型學(xué)到了歷史風(fēng)控系統(tǒng)的經(jīng)驗(yàn),拒絕樣本一般比通過(guò)樣本風(fēng)險(xiǎn)更高,因此AR模型對(duì)好壞仍然具有一定的排序性。事實(shí)上,這是目前風(fēng)控策略同學(xué)使用最多的方法。
(2)AR模型預(yù)篩出最好的部分客群,KGB模型在這部分客群上作用。我們假設(shè)AR模型可以預(yù)先幫助KGB模型減少樣本偏差。該方案的合理性在于,如果授信通過(guò)率為10%,那么根據(jù)AR分?jǐn)?shù)便可攔截70%的人群,對(duì)于剩余的30%人群,我們?cè)倮肒GB模型進(jìn)行排序。
(3)利用拒絕推斷技術(shù),將AR模型和KGB模型融合為一個(gè)IAGB模型分。接下來(lái)再利用IAGB模型分進(jìn)行決策。

實(shí)驗(yàn)三:探索利用拒絕推斷技術(shù)構(gòu)建IAGB模型。
在實(shí)踐中,我們嘗試使用各類方法,但是由于樣本、特征等差異性,實(shí)驗(yàn)結(jié)果可能并不可靠,這里并不展示實(shí)驗(yàn)結(jié)果。但是,筆者更為推薦大家利用兩階段雙評(píng)分卡來(lái)進(jìn)行拒絕推斷探索。
在真實(shí)業(yè)務(wù)中,除了二次風(fēng)控外,在貸前授信環(huán)節(jié)我們確實(shí)沒(méi)有Y數(shù)據(jù)。此時(shí)可以通過(guò)閾值外的間諜樣本(spy)進(jìn)行評(píng)估效果。
圖 11 - 申請(qǐng)訂單的3種狀態(tài)
總結(jié)
針對(duì)真實(shí)信貸業(yè)務(wù)中存在的樣本偏差問(wèn)題,本文對(duì)以下幾個(gè)問(wèn)題提出了一些參考解決方案。
如何根據(jù)真實(shí)業(yè)務(wù)場(chǎng)景,創(chuàng)造樣本偏差條件?
如何驗(yàn)證樣本偏差對(duì)KGB模型的影響?
如何驗(yàn)證拒絕推斷方法的有效性?
AR模型和KGB模型如何協(xié)同決策?
任何科學(xué)決策都離不開(kāi)數(shù)據(jù)支持,拒絕推斷的難點(diǎn)存在于多個(gè)方面:
在某些場(chǎng)景下,拒絕樣本的真實(shí)標(biāo)簽缺失,造成效果好壞評(píng)估上的不可能。
很多方法都有潛在的假設(shè),需要試湊法來(lái)多次實(shí)驗(yàn),很難總結(jié)出固定的方法論。
但是,我們總是希望獲取更多的正向信息,措施包括:利用AR分、拒絕標(biāo)注等。需要指出的是,本文也只是提出了一些方法論上的指導(dǎo),所給出的數(shù)據(jù)結(jié)論可能并不具有普世價(jià)值。歡迎大家探索嘗試!
作者:求是汪在路上(知乎ID) 上海新金融風(fēng)險(xiǎn)實(shí)驗(yàn)室 風(fēng)控算法專家
作者知乎:https://www.zhihu.com/people/zayn-m/posts
