2020第二屆廈門國際銀行數(shù)創(chuàng)金融杯建模大賽冠軍方案

1.客群中主要以41-60的中年人為主,高等級的白金與鉆石客戶占了總體的約15%,3個(gè)需預(yù)存的標(biāo)簽類別中,提升人群高達(dá)64%,最少的是下降人群,占15%;
擁有活期存款的客戶占比最大,為總體的97.5%,其次為結(jié)構(gòu)性存款,占40.5%;占比最少的是資管與定期類產(chǎn)品,分別占總客戶數(shù)的2.4%與1.9%。
季度末存款產(chǎn)品個(gè)數(shù)主要以1-2個(gè)為主,約占70%。
若線下訓(xùn)練時(shí)將3 季度的樣本包含在內(nèi),3 季度樣本會(huì)有相當(dāng)大一部分特征無法構(gòu)造,如客戶上季度的資金、特征情況、上季度與當(dāng)前季度差異等。
若線下訓(xùn)練不包含3 季度樣本,則會(huì)損失一些訓(xùn)練樣本,而優(yōu)勢是4、1季度樣本特征可以都包含客戶上季度的特征情況。


計(jì)算嘗試的結(jié)果非常符合業(yè)務(wù)邏輯:定義中的“資金”一詞,最接近的是客戶X1-X8的資產(chǎn)加和(且去除X7),即客戶賬戶中所有正向資金的加和;
另一方面,經(jīng)分析,貸款金額初步可以認(rèn)定對于客戶趨向于提升客群是起反作用的;
基于以上發(fā)現(xiàn),后續(xù)構(gòu)造特征時(shí),優(yōu)先構(gòu)造最接近標(biāo)簽定義的特征,即優(yōu)先構(gòu)造正向總金額類的特征,且需與貸款金額作區(qū)分,從而避免構(gòu)造冗余特征,使模型波動(dòng)太大。
特征值必須在不同樣本間公平可比這一思想,在構(gòu)造客戶各類統(tǒng)計(jì)特征時(shí)需要使用滑動(dòng)窗口的方法
所構(gòu)造特征不能引入未來信息,造成信息泄露;可以輔助PSI等特征穩(wěn)定性指標(biāo)評估所構(gòu)造的特征組
構(gòu)造特征時(shí),盡可能以總金額代替各類子金額,使特征的信息更全面、泛化




多分類模型對于每一個(gè)樣本,都會(huì)給出各個(gè)類別的概率,在預(yù)測時(shí),通常直接選取概率最大的那個(gè)類別作為模型對樣本的預(yù)測類別;而對于kappa 評估指標(biāo),后處理的優(yōu)化空間是,給3 個(gè)類別的概率不同權(quán)重,找到加權(quán)后的最大概率值,作為樣本的預(yù)測類別,從而使得Out of fold 整體樣本的kappa 結(jié)果最優(yōu)。那么如何尋找3 個(gè)類別各自的概率權(quán)重,成為了后處理的關(guān)鍵。
我們認(rèn)為,后處理必須以線下Out of fold 為依據(jù);
后處理存在著一定不穩(wěn)定性,必須在構(gòu)造特征完后,再進(jìn)行該部操作,不能以后處理結(jié)果作為新特征組的好壞判斷依據(jù);
單次對Out of fold 整體樣本的權(quán)重搜索,可能存在過擬合的問題,為了更為泛化,嘗試使用在每折中各自搜索權(quán)重,并將5 次權(quán)重取平均,作為泛化后的3 個(gè)類別的權(quán)重。
——END——
