<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          公積金貸款逾期預(yù)測(cè)

          共 3867字,需瀏覽 8分鐘

           ·

          2021-12-18 21:17


          向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)??????

          機(jī)器學(xué)習(xí)AI算法工程?? 公眾號(hào):datayx


          維持和發(fā)展信用關(guān)系,是保護(hù)社會(huì)經(jīng)濟(jì)秩序的重要前提。隨著金融市場(chǎng)的發(fā)展,信貸業(yè)務(wù)日益增多,金融機(jī)構(gòu)迫切需要了解信貸主體的信息情況,對(duì)信貸資產(chǎn)的安全性、信貸主體的償債能力給與科學(xué)評(píng)價(jià),最大限度地防范貸款逾期風(fēng)險(xiǎn)。


          本題的目標(biāo)是從真實(shí)場(chǎng)景和實(shí)際應(yīng)用出發(fā),利用個(gè)人的基本身份信息、個(gè)人的住房公積金繳存和貸款等數(shù)據(jù)信息,來建立準(zhǔn)確的風(fēng)險(xiǎn)控制模型,來預(yù)測(cè)用戶是否會(huì)逾期還款。


          賽題一共提供了40000帶標(biāo)簽訓(xùn)練集樣本,15000不帶標(biāo)簽的測(cè)試集樣本,需要注意的是本賽題測(cè)試樣本包含干擾樣本(干擾樣本不參與得分計(jì)算),未可得知這些樣本究竟是真樣本但不參與評(píng)測(cè)還是本身就是代碼生成的假樣本,這可能會(huì)在很大程度上影響樣本的分布。數(shù)據(jù)僅有一張表,一共有19個(gè)基本特征,且均不包含任何缺失值。




          評(píng)價(jià)指標(biāo)


          本次比賽成績(jī)排名根據(jù)測(cè)試集的在公積金逾期風(fēng)險(xiǎn)監(jiān)控中,需要盡可能做到盡可能少的誤傷和盡可能準(zhǔn)確地探測(cè),于是我們選擇“在FPR較低時(shí)的TPR加權(quán)平均值”作為平均指標(biāo)。


          給定一個(gè)閥值,可根據(jù)混淆矩陣計(jì)算TPR(覆蓋率)和FPR(打擾率) TPR = TP /(TP + FN) FPR = FP /(FP + TN) 其中,TP、FN、FP、TN分別為真正例、假反例、假正例、真反例。這里的評(píng)分指標(biāo),首先計(jì)算了3個(gè)覆蓋率TPR:TPR1:FPR=0.001時(shí)的TPR TPR2:FPR=0.005時(shí)的TPR TPR3:FPR=0.01時(shí)的TPR 最終成績(jī)= 0.4 * TPR1 + 0.3 * TPR2 + 0.3 * TPR3 代碼如下:



          代碼?獲取方式:

          關(guān)注微信公眾號(hào) datayx ?然后回復(fù)?公積金?即可獲取。


          數(shù)據(jù)清洗

          模型決定下限,特征決定上限,而數(shù)據(jù)清洗是做出良好特征的關(guān)鍵。

          對(duì)于該賽題而言,做好的數(shù)據(jù)清洗,tpr就可以到55+,如果能夠再結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景,做出一些業(yè)務(wù)性很強(qiáng)的特征,拿到top10的成績(jī)不難。首先根據(jù)說明,原始數(shù)據(jù)是經(jīng)過脫敏的,而且人為的加入了一些噪聲。數(shù)據(jù)的噪聲肯定會(huì)極大的影響我們的模型表現(xiàn),所以深入挖掘數(shù)據(jù)的規(guī)律,對(duì)數(shù)據(jù)進(jìn)行去噪恢復(fù)真值的操作尤為重要。下面主要說兩個(gè)關(guān)鍵點(diǎn):

          1.為何要對(duì)一些原始數(shù)值型特征減去237這個(gè)magic number??

          可能很多選手很迷惑,看了賽后的top開源代碼也不知為何。找到這個(gè)點(diǎn)的關(guān)鍵在于結(jié)合業(yè)務(wù)分析數(shù)據(jù)。對(duì)于山東省日照市的公積金相關(guān)的各項(xiàng)指標(biāo)我們是可以在官網(wǎng)查到的。根據(jù)公積金計(jì)算常見公式:

          個(gè)人繳存比例=個(gè)人月繳存額/個(gè)人繳存基數(shù)

          而根據(jù)我們?cè)诠倬W(wǎng)查到的繳存比例是固定值,5%~12%。但所給的數(shù)據(jù)通過計(jì)算個(gè)人月繳存額/個(gè)人繳存基數(shù)的出來的數(shù)據(jù)卻不符合這個(gè)規(guī)律。進(jìn)一步通過觀察一些樣本很容易發(fā)現(xiàn),如果對(duì)原始數(shù)據(jù)-237即可將數(shù)據(jù)恢復(fù)到真實(shí)值。而這個(gè)繳存比例對(duì)于我們的預(yù)測(cè)結(jié)果來說是一個(gè)很強(qiáng)的特征,這個(gè)從直觀上來看也是合理的,如果無法得到一個(gè)準(zhǔn)確的繳存比例就反映不出固定人群的特征。而且更為重要的是,我們還可以根據(jù)繳存比例的特征衍生出更多的強(qiáng)特,如果一開始就有誤差,那么這樣的誤差累積對(duì)模型表現(xiàn)是有致命影響的。

          2.利率的去噪?? 可能很多選手還沒反應(yīng)過來,還能對(duì)利率進(jìn)行去噪??通過觀察原始利率數(shù)據(jù)的unique特征不難發(fā)現(xiàn),所有的利率數(shù)據(jù)都是具有噪聲的,因?yàn)楦鶕?jù)業(yè)務(wù)知識(shí),利率就那幾種:長(zhǎng)期利率:2.75,短期利率:3.25.而第一套房和第二套房的利率有所不同,第二套房需要增加0.1的利率。所以根據(jù)這些知識(shí)我們完全可以僅僅利用利率信息挖掘出這么多的用戶畫像特征。對(duì)于原始數(shù)據(jù)中的某些異常值,只要仔細(xì)觀察,還可以發(fā)現(xiàn)很多值不滿足2.75,3.25,或者二套房利率,但他們和2.75,325卻是12倍的關(guān)系,可以推測(cè)這些利率很可能是以月的形式出現(xiàn),這樣我們就可以將它統(tǒng)一到年利率。最終可以得到利率的真實(shí)值最多有8種可能,我們只需要根據(jù)就近原則將這些加了噪聲的數(shù)據(jù)恢復(fù)到離自己最近的那個(gè)利率即可很大程度的實(shí)現(xiàn)去噪的目的。


          特征工程

          經(jīng)過上面的數(shù)據(jù)清洗,我們可以得到較為干凈的數(shù)據(jù),此時(shí)根據(jù)公積金貸款的一些專業(yè)知識(shí)可以做出一些強(qiáng)特

          一些數(shù)值特征比如:

          • 貸款余額/貸款發(fā)放額,甚至可以結(jié)合利率進(jìn)行精細(xì)計(jì)算

          • 根據(jù)繳存基數(shù)得到收入

          • 收入/貸款

          • 賬戶余額/當(dāng)年歸集

          • ...等等

          一些類別特征:

          • 根據(jù)復(fù)原的利率判斷 長(zhǎng)期貸款?短期貸款?

          • 根據(jù)利率得到是否是 一套房?多套房?

          • 單位所屬行業(yè),單位所屬類型

          • ...等等

          類別與類別/類別與數(shù)值之間的交叉特征:類別與類別的交叉特征GBDT等樹模型是可以自動(dòng)學(xué)習(xí)到的,但有時(shí)候手動(dòng)的做一些特征也無妨,這里項(xiàng)重點(diǎn)強(qiáng)調(diào)的是類別與數(shù)值的聚合特征,假設(shè)我們以一個(gè)類別進(jìn)行g(shù)roupby,然后統(tǒng)計(jì)每一個(gè)類別里面對(duì)應(yīng)的該數(shù)值特征的均值,方差,最大,最小統(tǒng)計(jì)量等特征,一定程度上刻畫了這個(gè)樣本所在一個(gè)圈子的特征。這樣往往可以做出很多的強(qiáng)特,從實(shí)際場(chǎng)景上來講,中相當(dāng)于是對(duì)用戶更具某一個(gè)類別特征進(jìn)行了歸類,然后集中統(tǒng)計(jì)了下屬于這個(gè)圈子的群體特征。舉個(gè)例子就很好理解:按照單位類型進(jìn)行聚合,比如在體制外這個(gè)類別中,收入均值是x,如果某一個(gè)樣本的收入遠(yuǎn)遠(yuǎn)不如這個(gè)均值,那么它可能就屬于會(huì)逾期的那種情況,當(dāng)然這也是結(jié)合其它的特征來判斷。這個(gè)例子可能不是很恰當(dāng),但能一定程度上體現(xiàn)出這種聚合統(tǒng)計(jì)特征的重要性。

          通過上面的特征工程,如果加上暴力的加減乘除特征(暴力特征往往引入很多無意義的特征列),可以輕易做到上千維,如何進(jìn)行特征篩選又是一個(gè)問題.

          如何特征篩選?

          (1) 根據(jù)樹模型的特征重要度,K折CV,將每一折的重要性進(jìn)行記錄,最后取重要性的平均?;蛘咄瑫r(shí)訓(xùn)練xgboost,lightgbm,catboost等模型然后多個(gè)模型重要度的排序綜合考慮

          (2) 結(jié)合協(xié)方差的篩選,其實(shí)就是基于特征和目標(biāo)的相關(guān)性來判斷。某種程度,該方法比樹模型重要度更靠譜

          (3) nullImportance 。這也是本次比賽使用的方法,核心思想就是打亂數(shù)據(jù)標(biāo)簽,訓(xùn)練樹模型,得到重要度,該過程可以訓(xùn)練多輪,然后將得到的重要度和為未打亂的數(shù)據(jù)訓(xùn)練得到的重要度進(jìn)行一個(gè)比較。如果一個(gè)特征在打亂前重要度和打亂后的重要性差距很大,說明這是一個(gè)重要且靠譜的特征。


          機(jī)器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)

          ?搜索公眾號(hào)添加:?datanlp

          長(zhǎng)按圖片,識(shí)別二維碼




          閱讀過本文的人還看了以下文章:


          TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)


          基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測(cè)


          《基于深度學(xué)習(xí)的自然語言處理》中/英PDF


          Deep Learning 中文版初版-周志華團(tuán)隊(duì)


          【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!


          《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf


          《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼


          《深度學(xué)習(xí):基于Keras的Python實(shí)踐》PDF和代碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目


          2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


          《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼


          《深度學(xué)習(xí)之pytorch》pdf+附書源碼


          PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)


          李沐大神開源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!


          《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼


          將機(jī)器學(xué)習(xí)模型部署為REST API


          FashionAI服裝屬性標(biāo)簽圖像識(shí)別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識(shí)別


          yolo3 檢測(cè)出圖像中的不規(guī)則漢字


          同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過不了?


          前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)


          【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類


          VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識(shí)別分類工程項(xiàng)目


          特征工程(一)


          特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學(xué)習(xí)


          如何利用全新的決策樹集成級(jí)聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過


          全球AI挑戰(zhàn)-場(chǎng)景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識(shí)別手寫中文網(wǎng)站


          中科院Kaggle全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程



          不斷更新資源

          深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python

          ?搜索公眾號(hào)添加:?datayx??



          瀏覽 34
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲无码制服 | www久久久久 | 国产一级a毛一级a做视频 | 亚洲天堂7777 | 精品少妇人妻Av久久久牛牛 |