智慧支付挑戰(zhàn)賽一等獎(jiǎng)方案分享

今天和大家分享的是前不久老肥我參加的銀聯(lián)商務(wù)和華東理工商學(xué)院一起舉辦的智慧支付挑戰(zhàn)賽,本次比賽我也是單人參加,最終很高興收獲了一等獎(jiǎng)的好成績(jī)。
賽題分析
本次挑戰(zhàn)賽的目標(biāo)是設(shè)計(jì)一個(gè)基于商戶靜態(tài)屬性和交易信息的商戶流失預(yù)測(cè)模型,即通過(guò)模型預(yù)測(cè)測(cè)試集的商戶在未來(lái)一個(gè)月內(nèi)是否流失,評(píng)價(jià)的指標(biāo)為F1。
這是一個(gè)主從表問(wèn)題,主表包含商戶靜態(tài)屬性信息,副表包含商戶交易流水信息。
其中初賽給的訓(xùn)練集為4、5、6月的交易流水?dāng)?shù)據(jù)來(lái)預(yù)測(cè)7月份商戶是否流失,決賽的訓(xùn)練集為5、6、7月的交易流水?dāng)?shù)據(jù)來(lái)預(yù)測(cè)8月份商戶是否流失。為了同時(shí)利用到初賽和決賽的訓(xùn)練集,我們需要先對(duì)日期進(jìn)行對(duì)準(zhǔn)操作,初賽訓(xùn)練集4月對(duì)應(yīng)預(yù)測(cè)月前第三月,5月訓(xùn)練集5月也對(duì)應(yīng)預(yù)測(cè)月前第三月。
解決方案
首先是數(shù)據(jù)預(yù)處理部分,數(shù)據(jù)缺失值占比較小,對(duì)于類別變量我們做統(tǒng)一字符串填充,數(shù)值變量不做任何處理。對(duì)于不在統(tǒng)計(jì)周期內(nèi)的數(shù)據(jù)予以刪除。
然后是最重要的部分-特征工程,我通過(guò)從季度到月到周到日再到小時(shí),從粗粒度到細(xì)粒度對(duì)商戶的交易流水進(jìn)行特征提取。統(tǒng)計(jì)特征的提取包括兩類,一類是類別變量,我們統(tǒng)計(jì)其nunique、count,即種類和數(shù)量,另一類是數(shù)值變量,我們統(tǒng)計(jì)其最大最小均值方差等等。

月份之間的特征進(jìn)行交叉,通過(guò)相減相除刻畫出商戶交易金額隨月份變化的表現(xiàn),使用滑動(dòng)窗口對(duì)預(yù)測(cè)月前一個(gè)月內(nèi)的每一周的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、交叉。對(duì)于日級(jí)別的特征提取,我們采用交易間隔日期的統(tǒng)計(jì)以及最長(zhǎng)連續(xù)交易日來(lái)實(shí)現(xiàn)。

通過(guò)觀察初賽訓(xùn)練集與決賽訓(xùn)練集我發(fā)現(xiàn)前者與測(cè)試集存在非常明顯的分布不一致的問(wèn)題,而后者與測(cè)試集的分布則非常相似。這里就面臨兩難的抉擇,是把初賽訓(xùn)練集也用上一起訓(xùn)練模型還是單獨(dú)使用決賽訓(xùn)練集來(lái)避免分布不一致造成的線上線下成績(jī)不一致的問(wèn)題。我認(rèn)為數(shù)據(jù)的優(yōu)先級(jí)更高,我2W數(shù)據(jù)大概率比只用1W數(shù)據(jù)的要強(qiáng)。為了能夠更好的利用數(shù)據(jù),我額外新增一列特征,用它來(lái)表明數(shù)據(jù)的來(lái)源,讓模型自己學(xué)習(xí)不同的分布。

我選擇了使用兩個(gè)lgb模型進(jìn)行概率平均融合。兩個(gè)模型都采用了相同的總特征以及相同的參數(shù),但是特征使用情況不同、訓(xùn)練方法不同。首先是特征的不同之處,第一個(gè)模型根據(jù)樹模型的特征重要性對(duì)473維基礎(chǔ)特征進(jìn)行篩選,使用了重要性大于0.2的共計(jì)397維特征,而第二個(gè)模型根據(jù)null importance的特征選擇方法,最后使用篩選出的共計(jì)270維特征;然后是訓(xùn)練方法的不同之處,第一個(gè)模型使用初賽訓(xùn)練集以及決賽訓(xùn)練集作為全部的訓(xùn)練集,進(jìn)行五折交叉驗(yàn)證,而第二個(gè)模型在使用初賽訓(xùn)練集以及決賽訓(xùn)練集的同時(shí),只采用決賽訓(xùn)練集作為驗(yàn)證集。
在經(jīng)過(guò)現(xiàn)場(chǎng)答辯環(huán)節(jié)之后,我發(fā)現(xiàn)得分較高的選手采取的特征工程方法都較為相近,其中@揮霍同學(xué)提出使用額外數(shù)據(jù)(行業(yè)分類信息)做tfidf統(tǒng)計(jì)對(duì)模型性能有顯著提升,看來(lái)對(duì)補(bǔ)充材料的特征挖掘會(huì)有意想不到的收獲。
以上就是文章的全部?jī)?nèi)容了,本文的所有代碼已經(jīng)上傳,在后臺(tái)回復(fù)「銀聯(lián)」即可。
——END——
掃碼二維碼
獲取更多精彩
老肥碼碼碼

