<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2020第二屆廈門國際銀行數(shù)創(chuàng)金融杯建模大賽冠軍方案

          共 3338字,需瀏覽 7分鐘

           ·

          2021-12-18 23:09

          遙想當(dāng)年,由于工作繁忙沒來得及參加第一屆廈門國際銀行賽,心中存有些許遺憾,作為多年的風(fēng)控行業(yè)從業(yè)者,我們希望把自己工作積累的經(jīng)驗(yàn)成功應(yīng)用在數(shù)據(jù)挖掘比賽中,在這一屆的比賽中,我們做到了,也拿到了冠軍。希望業(yè)內(nèi)人士也可以利用空閑時(shí)間多多參與比賽,提升自己的同時(shí)也是檢驗(yàn)自己的業(yè)務(wù)能力不是嗎?雖然本次賽事的周期持續(xù)較長,但在這里還是要感謝主辦方,話不多說,下面我們將分享我們的建模冠軍方案。


          數(shù)據(jù)解析

          本次數(shù)創(chuàng)金融杯建模大賽算法部分主要預(yù)測的是銀行客戶的賬戶資金變動(dòng)情況。具體為,通過充分挖掘客戶過去幾個(gè)季度的賬戶狀態(tài)、資金余額、賬戶行為與人口屬性,預(yù)測下一季度賬戶資金較本季度的變動(dòng)情況,變動(dòng)分為1:提升、0:維穩(wěn)、-1:下降。

          1. 數(shù)據(jù)初步探索
          首先,我們對整體客戶的關(guān)鍵屬性進(jìn)行了分析,具體如下所示。

          關(guān)鍵發(fā)現(xiàn):
          • 1.客群中主要以41-60的中年人為主,高等級的白金與鉆石客戶占了總體的約15%,3個(gè)需預(yù)存的標(biāo)簽類別中,提升人群高達(dá)64%,最少的是下降人群,占15%;

          • 擁有活期存款的客戶占比最大,為總體的97.5%,其次為結(jié)構(gòu)性存款,占40.5%;占比最少的是資管與定期類產(chǎn)品,分別占總客戶數(shù)的2.4%與1.9%。

          • 季度末存款產(chǎn)品個(gè)數(shù)主要以1-2個(gè)為主,約占70%。


          2. 關(guān)鍵問題拆分
          根據(jù)以上題目設(shè)定,可以將該賽題主要拆分為以下幾個(gè)關(guān)鍵問題:
          (1) 訓(xùn)練集如何選取?
          (2) 線下驗(yàn)證方式該如何設(shè)置?
          (3) 由于數(shù)據(jù)量較小,哪些維度特征能夠最有效、最泛化地預(yù)測下季度客戶資金的變化情況?
          (4) 特征的提取方式:是否需要進(jìn)行時(shí)間劃窗?如何避免特征穿越的信息泄露?
          (5) 模型采用多分類還是回歸?
          (6) 對于kappa 評價(jià)指標(biāo),是否存在后處理優(yōu)化的空間?

          針對以上問題,我們進(jìn)行了一些簡單的數(shù)據(jù)探索與分析,得到了以下初步結(jié)論:

          (1) 訓(xùn)練集如何選取
          主辦方提供了3、4 季度的客戶作為訓(xùn)練集,后一年的1 季度客戶作為測試集。
          • 若線下訓(xùn)練時(shí)將3 季度的樣本包含在內(nèi),3 季度樣本會(huì)有相當(dāng)大一部分特征無法構(gòu)造,如客戶上季度的資金、特征情況、上季度與當(dāng)前季度差異等。

          • 若線下訓(xùn)練不包含3 季度樣本,則會(huì)損失一些訓(xùn)練樣本,而優(yōu)勢是4、1季度樣本特征可以都包含客戶上季度的特征情況。

          通過分析客戶的留存率,我們發(fā)現(xiàn),3、4 季度的重疊客戶數(shù)占到了3 季度客戶數(shù)的90%,占4 季度的82%。這說明4 季度樣本客戶大部分都能提取到其上季度對應(yīng)特征情況,且加入3 季度樣本并不會(huì)給整體樣本帶來許多新客戶。

          同時(shí),通過一版簡單的baseline 比較,我們發(fā)現(xiàn),如我們所設(shè)想的,只包含4 季度樣本,且包含當(dāng)前季度與上季度客戶資金差異的模型,即上述提到的方法2),效果更好。
          (2) 線下驗(yàn)證方式
          對4 季度訓(xùn)練集使用5 折交叉驗(yàn)證的方式進(jìn)行線下驗(yàn)證,通過觀察分析,該驗(yàn)證方式與線上提交的分?jǐn)?shù)結(jié)果差異非常小,且始終保持一致。

          (3) 由于數(shù)據(jù)量較小,如何找到最有效、最泛化的特征維度?
          這次賽題的數(shù)據(jù)量較小,4 季度訓(xùn)練樣本約為7.6 萬,在這種情況下,若一味地堆砌特征,一定會(huì)給模型帶來非常多的噪聲。因此,我們使用特征組的概念,一組組10 幾個(gè)地添加特征,觀察線下交叉驗(yàn)證與線上分?jǐn)?shù)的情況,同時(shí)進(jìn)行充分地特征篩選,保證每組特征是有效,而不是冗余的。

          (4) 特征的提取方式:如何提取特征?如何避免特征穿越帶來的信息泄露?
          特征的提取一直是算法競賽最重要的部分之一。在此次競賽中,我們秉持著特征值必須在不同樣本間公平可比這一思想,構(gòu)造了所有特征組。舉例來說,我們想統(tǒng)計(jì)客戶的動(dòng)賬總次數(shù),當(dāng)有的客戶只有4 季度的行為數(shù)據(jù),而有的客戶3、4 季度數(shù)據(jù)都有,那么簡單的對客戶歷史動(dòng)賬次數(shù)進(jìn)行加和,就不能充分地表達(dá)這個(gè)維度的特征信息。為了公平可比,可以對該特征進(jìn)行滑窗,分別構(gòu)造一組上季度動(dòng)賬次數(shù)加和,與另一組過去兩個(gè)季度動(dòng)賬次數(shù)加和,從而充分表達(dá)客戶行為。

          同時(shí),為了避免特征信息泄露,構(gòu)造的特征不能用到下一季度的任何信息。另外,每構(gòu)造一組新特征,我們就會(huì)計(jì)算該組特征內(nèi)每個(gè)特征訓(xùn)練集與測試集的PSI,若線下交叉驗(yàn)證提升非常多,但存在PSI 非常大的特征,那么我們并不會(huì)提交,會(huì)先分析、解決這個(gè)可能存在泄露的特征。

          (5) 模型采用多分類還是回歸?
          由于標(biāo)簽-1,0 ,1 存在著類似順序關(guān)系,回歸模型可能也是一種方式,但據(jù)線下交叉驗(yàn)證Kappa 的情況,我們發(fā)現(xiàn)多分類模型還是優(yōu)于回歸模型。

          (6) kappa 評價(jià)指標(biāo)的后處理優(yōu)化空間
          根據(jù)Kappa 的計(jì)算方法,我們分析發(fā)現(xiàn),例如若將某樣本真實(shí)標(biāo)簽1 錯(cuò)誤地預(yù)測成-1,其損失會(huì)比錯(cuò)誤預(yù)測成0 大的多。因此,這里理論上是存在著后處理優(yōu)化空間的,后續(xù)方案介紹中會(huì)有部分著重介紹我們的后處理方法。

          特征工程

          1. 標(biāo)簽定義分析
          首先來看我們基于數(shù)據(jù)的理解,對于標(biāo)簽中資金狀態(tài)里的資金一詞最貼近的計(jì)算方式嘗試。


          關(guān)鍵發(fā)現(xiàn)與后續(xù)特征思路
          • 計(jì)算嘗試的結(jié)果非常符合業(yè)務(wù)邏輯:定義中的“資金”一詞,最接近的是客戶X1-X8的資產(chǎn)加和(且去除X7),即客戶賬戶中所有正向資金的加和;

          • 另一方面,經(jīng)分析,貸款金額初步可以認(rèn)定對于客戶趨向于提升客群是起反作用的;

          • 基于以上發(fā)現(xiàn),后續(xù)構(gòu)造特征時(shí),優(yōu)先構(gòu)造最接近標(biāo)簽定義的特征,即優(yōu)先構(gòu)造正向總金額類的特征,且需與貸款金額作區(qū)分,從而避免構(gòu)造冗余特征,使模型波動(dòng)太大。


          2.特征構(gòu)造基本思想與特征組概覽
          基本思想:
          • 特征值必須在不同樣本間公平可比這一思想,在構(gòu)造客戶各類統(tǒng)計(jì)特征時(shí)需要使用滑動(dòng)窗口的方法

          • 所構(gòu)造特征不能引入未來信息,造成信息泄露;可以輔助PSI等特征穩(wěn)定性指標(biāo)評估所構(gòu)造的特征組

          • 構(gòu)造特征時(shí),盡可能以總金額代替各類子金額,使特征的信息更全面、泛化


          詳細(xì)特征組如下:



          建模與后處理

          我們使用5 折交叉驗(yàn)證的方式訓(xùn)練5 個(gè)不同的lgb 模型,對測試集分別做出概率預(yù)測,并取平均。

          在kappa 評估算法中,若將某樣本真實(shí)標(biāo)簽1錯(cuò)誤地預(yù)測成-1,其損失會(huì)比錯(cuò)誤預(yù)測成0 大的多。這也使得針對于kappa 的后處理優(yōu)化成為了本道賽題最為重要的環(huán)節(jié)之一。

          對本次賽題的后處理,我們有如下思考與原則:
          • 多分類模型對于每一個(gè)樣本,都會(huì)給出各個(gè)類別的概率,在預(yù)測時(shí),通常直接選取概率最大的那個(gè)類別作為模型對樣本的預(yù)測類別;而對于kappa 評估指標(biāo),后處理的優(yōu)化空間是,給3 個(gè)類別的概率不同權(quán)重,找到加權(quán)后的最大概率值,作為樣本的預(yù)測類別,從而使得Out of fold 整體樣本的kappa 結(jié)果最優(yōu)。那么如何尋找3 個(gè)類別各自的概率權(quán)重,成為了后處理的關(guān)鍵。

          • 我們認(rèn)為,后處理必須以線下Out of fold 為依據(jù);

          • 后處理存在著一定不穩(wěn)定性,必須在構(gòu)造特征完后,再進(jìn)行該部操作,不能以后處理結(jié)果作為新特征組的好壞判斷依據(jù);

          • 單次對Out of fold 整體樣本的權(quán)重搜索,可能存在過擬合的問題,為了更為泛化,嘗試使用在每折中各自搜索權(quán)重,并將5 次權(quán)重取平均,作為泛化后的3 個(gè)類別的權(quán)重。


          我們的最優(yōu)單模型使用了135 個(gè)特征,后處理優(yōu)化后線上可以達(dá)到約0.497的分?jǐn)?shù),該模型一直保持著最后2 周A 榜第一。在最后幾天中,后續(xù)的隊(duì)伍開始了組隊(duì)與融合嘗試,但我們的單模型仍能保持在Top3 的水平,最后我們將該模型與另一個(gè)線上0.495的模型進(jìn)行融合,根據(jù)線下找到最優(yōu)融合比例,進(jìn)行提交。最終A 榜成績0.49877,B 榜成績0.49899,非常穩(wěn)定,獲得初賽第一。

          最后分享些打比賽的想法,數(shù)據(jù)挖掘比賽其實(shí)也是競技的一種,既然是競技,所以就需要在參與比賽前積累些基礎(chǔ),邊做邊學(xué)也未嘗不可。不要一個(gè)比賽結(jié)束了都沒有形成自己的一套解決問題的思路,雖然一套思路也不能適用于所有場景,但這對培養(yǎng)個(gè)人的獨(dú)立思考能力還是很重要的。另也請謹(jǐn)記競技的前提是公平、公正、公開,用自己的知識(shí)水平和業(yè)務(wù)理解去打敗對手才會(huì)獲取最大的成就感,謝謝各位的閱讀。

          ——END——

          瀏覽 215
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久青草综合 | 免费在线观看色黄 | 伊人福利视频 | 久久久久久亚洲精品 | 天天干熟女|