<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          招商銀行2021FinTech精英訓(xùn)練營數(shù)據(jù)賽道方案分享

          共 2015字,需瀏覽 5分鐘

           ·

          2021-05-15 23:24

          老肥和大家分享的是下午剛剛結(jié)束的招商銀行2021FinTech精英訓(xùn)練營數(shù)據(jù)賽道的方案。這次賽題是時間序列賽題,我也是第二次嘗試(第一次是中興捧月迪杰斯特拉賽道的流量預(yù)測),方式方法還略顯稚嫩,只使用了樹模型與時序模型進(jìn)行任務(wù)的建模,最終取得了榜單24名的成績,在這我拋磚引玉,期待大佬們更加多元化、性能強(qiáng)大的方案。

          賽題介紹

          近年來,以A(artificial intelligence)B(big data)C(cloud)為代表的數(shù)據(jù)智能技術(shù)飛速發(fā)展。為適應(yīng)新時期銀行科技轉(zhuǎn)型的發(fā)展戰(zhàn)略,招商銀行提出“輕運(yùn)營”理念,通過對未來業(yè)務(wù)量進(jìn)行精準(zhǔn)預(yù)測,可以合理安排人力,提升關(guān)鍵工作節(jié)點(diǎn)的精確化和自動化能力,向著以卓越、高效、低成本為特點(diǎn)的精益運(yùn)營更進(jìn)一步。

          本次競賽給出的數(shù)據(jù)包含日期、節(jié)假日信息、時間段、崗位(含2種崗位A、B)、業(yè)務(wù)類型和業(yè)務(wù)量數(shù)據(jù)。賽題共有兩個子任務(wù),任務(wù)一的權(quán)重為0.7, 任務(wù)二的權(quán)重為0.3。因此優(yōu)化任務(wù)一收益更高,我們需盡量提升任務(wù)一的分值。

          • 任務(wù)1:預(yù)測未來31天各崗位每天的業(yè)務(wù)量總量
          • 任務(wù)2:預(yù)測未來31天各崗位每天每半小時粒度的業(yè)務(wù)總量

          競賽的評價標(biāo)準(zhǔn)為mape,該指標(biāo)真實(shí)值較小的數(shù)據(jù)的影響要遠(yuǎn)大于值較大的。

          解決方案

          首先是對于任務(wù)一,需要我們預(yù)測未來每天業(yè)務(wù)量的總量,我采用了lgb模型對時序數(shù)據(jù)進(jìn)行回歸建模,特征包括節(jié)假日信息,當(dāng)天的日期信息,包含年月日季度等等信息。

          def get_inner_date_feature_eng(data):
              data['date'] = pd.to_datetime(data['date'])
              data["month"] = data['date'].dt.month
              data["year"] = data['date'].dt.year
              data["day"] = data['date'].dt.day
              data["dayofw"] = data['date'].dt.dayofweek
              data["dayofy"] = data['date'].dt.dayofyear
              data["week"] = data['date'].dt.week
              data["quarter"] = data['date'].dt.quarter
              return data

          對于AB兩類不同的崗位分別訓(xùn)練建模(A類型崗位直接對大類進(jìn)行訓(xùn)練),均使用2020年11月以前的全部數(shù)據(jù)進(jìn)行訓(xùn)練,使用2020年11月的數(shù)據(jù)作為驗證集。

          從驗證集來看,模型對A崗位學(xué)習(xí)較優(yōu),僅有0.036的mape,而B崗位的mape較高,觀察發(fā)現(xiàn)模型對B的預(yù)測數(shù)值存在普遍數(shù)值較低的線性,結(jié)合歷史數(shù)據(jù),我們可以看到較為明顯的年末效應(yīng)(業(yè)務(wù)量增加),于是我對所有B崗位的預(yù)測加上固定數(shù)值,當(dāng)然也可以使用比例系數(shù)放大的方法,最終在驗證集能達(dá)到0.062的mape。這種規(guī)則處理的方法使我的任務(wù)一線上得分從0.13提升到0.06,可謂效果拔群。

          對于任務(wù)二,我采用了兩個不同的模型進(jìn)行平均融合,首先是lgb模型,特征包括節(jié)假日信息,上一日的節(jié)假日信息等等,另外還有不同之處在于,在任務(wù)二中我采用分崗位細(xì)類分別進(jìn)行預(yù)測,最后將同崗位的數(shù)據(jù)按periods加和獲得最終預(yù)測結(jié)果;第二個是arima模型,我將節(jié)假日信息作為外部信息對模型進(jìn)行增強(qiáng),對不同periods的時間序列分別進(jìn)行建模。最后將這倆模型根據(jù)任務(wù)一的預(yù)測結(jié)果進(jìn)行數(shù)據(jù)縮放(因為任務(wù)一的性能較優(yōu),用任務(wù)一來指導(dǎo)任務(wù)二模型更加逼近真實(shí)值),這種規(guī)則處理的方法能夠使mape優(yōu)化接近2個百分點(diǎn),同樣效果拔群。

          綜上所述,我使用的模型方法結(jié)合規(guī)則后處理的方法綜合使用能夠取得較優(yōu)的結(jié)果。以上就是本篇文章的全部內(nèi)容了,本文的所有代碼已經(jīng)上傳,在后臺回復(fù)「ZSYH」即可。


          ——END——


          掃碼二維碼

          獲取更多精彩

          老肥碼碼碼


          瀏覽 58
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷亚洲五月色综合 | 欧美成人精品欧美一级乱 | 国产人兽网站 | 亚洲综合中文字幕在线播放 | 日韩在线成人电影 |