【數(shù)據(jù)競賽】消費金融場景下的用戶購買預(yù)測冠軍方案分享
大賽介紹
2000多年前,阿基米德說:“給我一個支點,我可以撬動整個地球”。伴隨近年來新技術(shù)的快速涌現(xiàn)和迅猛發(fā)展,大數(shù)據(jù)或?qū)⒊蔀閭鹘y(tǒng)金融行業(yè)向金融科技轉(zhuǎn)型的“阿基米德支點”。
作為業(yè)內(nèi)領(lǐng)先品牌,招商銀行信用卡中心在全力打造Fintech銀行的過程中,始終走在變化的前沿。我們在全景智額、千人千面、大數(shù)據(jù)風控等金融科技方面的嘗試與創(chuàng)新,也正是因為打造了從數(shù)據(jù)收集到數(shù)據(jù)清洗、再到數(shù)據(jù)挖掘和商業(yè)應(yīng)用的一體化大數(shù)據(jù)平臺。
我們希望,在數(shù)據(jù)已經(jīng)成為戰(zhàn)略資源和經(jīng)濟資產(chǎn)的今天,通過此次數(shù)據(jù)大賽,捕捉在消費金融場景下的用戶價值信息與消費需求,發(fā)揮數(shù)據(jù)價值,給用戶提供更加精準的服務(wù)。也可以讓廣大高校學生對消費金融、對信用卡數(shù)據(jù)應(yīng)用,能有更深刻的接觸與了解。
賽題背景
掌上生活A(yù)PP是招商銀行于2010年推出的手機客戶端應(yīng)用軟件,全面升級了信用卡的使用體驗。當前6.0版本的掌上生活A(yù)PP,提供了手機商城、飯票影票、在線客服、基金理財、辦卡開卡、額度管理、消費信貸、賬單管理等全方位功能,同時實現(xiàn)了LBS查詢服務(wù)和手機遠程支付,全面滿足并提升了持卡人對金融和日常生活需求的消費體驗。
招商銀行信用卡在不斷拓展業(yè)務(wù)與場景的同時,也希望通過數(shù)據(jù)積累與數(shù)據(jù)驅(qū)動,主動捕捉用戶價值信息與消費需求,發(fā)揮數(shù)據(jù)價值,給用戶提供更加精準的服務(wù)。
賽題任務(wù)
利用招商銀行客戶的個人屬性、信用卡消費數(shù)據(jù),以及部分客戶在掌上生活A(yù)PP上的一個月的操作行為日志,設(shè)計合理的特征工程與模型算法方案,預(yù)測客戶在未來一周內(nèi)(4月1日-7日),是否會購買掌上生活A(yù)PP上的優(yōu)惠券(包括飯票、影票等)??紤]到客戶隱私,客戶的個人屬性數(shù)據(jù)與信用卡消費數(shù)據(jù),采用脫敏并標準化處理為V1,V2,…,V30數(shù)值型屬性。客戶在APP上的行為日志,一些字段也進行了相應(yīng)加密。
賽題數(shù)據(jù)
本次比賽提供的數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)共分為三部分:
(1)個人屬性與信用卡消費數(shù)據(jù):包含80000名信用卡客戶的個人屬性與信用卡消費數(shù)據(jù),其中包含枚舉型特征和數(shù)值型特征,均已轉(zhuǎn)為數(shù)值并進行了脫敏和標準化處理。
(2)APP操作行為日志:上述信用卡客戶中,部分已綁定掌上生活A(yù)PP的客戶,在近一個月時間窗口內(nèi)的所有點擊行為日志。
(3)標注數(shù)據(jù):包括客戶號及標簽。其中,標簽數(shù)據(jù)為用戶是否會在未來一周,購買掌上生活A(yù)PP上的優(yōu)惠券。
文件清單和使用說明
train/ ——訓(xùn)練樣本目錄,包含三個文件 train_agg.csv —— 個人屬性與信用卡消費數(shù)據(jù) train_log.csv ——APP操作行為日志 train_flag.csv ——標注數(shù)據(jù) test/ ——評測樣本目錄,包含兩個文件,不提供標注數(shù) test_agg.csv —— 個人屬性與信用卡消費數(shù)據(jù) test_log.csv—— APP操作行為日志
冠軍方案
賽題分析

特征工程(常規(guī)特征)
主要按照特征群進行提?。夯A(chǔ)統(tǒng)計特征,離散特征,時序相關(guān)特征。

特征工程(亮點一:時序特征)

特征工程(亮點二:NLP特征)

特征工程

特征選擇:
基于XGB的特征重要性 先訓(xùn)練一個XGBoost模型,輸出其特征重要性,然后將重要性為0的特征刪除,即完成了特征選擇。 基于wrapper的方式
目的:
降維,使模型泛化能力更強,減少過擬合。
模型設(shè)計

模型融合(基于Rank)
比賽評價標準為AUC,其本質(zhì)為排序優(yōu)化問題概率得分線性加權(quán)是存在問題的,所以需要進行調(diào)整。

應(yīng)用場景
潛力:
特征具有可解釋性 模型的驗證方法具有穩(wěn)定性 隨著數(shù)據(jù)量的增大,Word2vec特征會有更好的效果。 自然語言處理領(lǐng)域中成熟的方法可應(yīng)用到用戶行為識別中。
價值:
商家廣告精準投放。 個性化推薦優(yōu)惠信息。
參賽總結(jié)
不足:
對于agg表只進行了簡單的二元化和rank處理,沒有深度發(fā)掘。 模型的融合的權(quán)重是根據(jù)線上成績,其實可以采用線性回歸的方式得到。
收獲:
NLP和普通機器學習的結(jié)合 堅持的重要性 團隊協(xié)作能力都得到了較大的提升
往期精彩回顧
獲取本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開:
https://t.zsxq.com/qFiUFMV
本站qq群704220115。
加入微信群請掃碼:
