【數(shù)據(jù)競賽】CCF乘用車細分市場銷量預測競賽總結
題目:乘用車細分市場銷量預測 類型:時序回歸
https://datafountain.cn/competitions/352/
賽題背景
近幾年來,國內(nèi)汽車市場由增量市場逐步進入存量市場階段,2018年整體市場銷量首次同比下降。在市場整體趨勢逐步改變的環(huán)境下,消費者購車決策的過程也正在從線下向線上轉(zhuǎn)移,我們希望能在銷量數(shù)據(jù)自身趨勢規(guī)律的基礎上,找到消費者在互聯(lián)網(wǎng)上的行為數(shù)據(jù)與銷量之間的相關性,為汽車行業(yè)帶來更準確有效的銷量趨勢預測。
賽題任務
本賽題需要參賽隊伍根據(jù)給出的60款車型在22個細分市場(省份)的銷量連續(xù)24個月(從2016年1月至2018年12月)的銷量數(shù)據(jù),建立銷量預測模型;基于該模型預測同一款車型和相同細分市場在接下來一個季度連續(xù)4個月份的銷量;
除銷量數(shù)據(jù)外,還提供同時期的用戶互聯(lián)網(wǎng)行為統(tǒng)計數(shù)據(jù),包括:各細分市場每個車型名稱的互聯(lián)網(wǎng)搜索量數(shù)據(jù);主流汽車垂直媒體用戶活躍數(shù)據(jù)等。參賽隊伍可同時使用這些非銷量數(shù)據(jù)用于建模。
賽題數(shù)據(jù)
歷史銷量數(shù)據(jù)包含60個車型在22個省份,從2016年1月至2017年12月的銷量。參賽隊伍需要預測接下來4個月(2018年1月至2018年4月),這60個車型在22個省份的銷量;參賽參賽隊伍需自行劃分訓練集數(shù)據(jù)進行建模。
評分標準
采用NRMSE(歸一化均方根誤差)的均值作為評估指標。首先單獨計算每個車型在每個細分市場(省份)的NRMSE,再計算所有NRMSE的均值。
寶可夢訓練團隊
本方案先對數(shù)據(jù)進行了探索性分析,去除掉與銷售量變化趨勢關系不大的"搜索量"、"對車型相關新聞文章的評論數(shù)量"、"對車型的評價數(shù)量"等用處不大的特征。
在其中的一個模型,對銷售量進行l(wèi)og1p變換,這樣可以使銷量數(shù)據(jù)在轉(zhuǎn)換后基本服從一個正態(tài)分布,能夠提升一定的效果;考慮到春節(jié)、農(nóng)歷月份的影響,本方案做了相關標示。
在做特征工程方面,構造了滑窗。平移,趨勢,統(tǒng)計等方面的特征。在總體策略上,因為要預測連續(xù)四個月的銷量,我本方案的策略是一個月一個月的預測,首先預測1月份的結果。然后將1月份的預測結果合并到訓練集,再預測2 月份結果,依次類準。
在模型融合方面,我一共使用了3個模型,每個模型的特征組合不同,進行融合后有一定提升效果。
數(shù)據(jù)分析
不同車型、不同省份在不同月份的點,銷量差距還是很大的,但也不排除是臟數(shù)的可能。
銷量與車型搜索量、相關新聞回復量、評價數(shù)量分析的變化趨勢并沒有太大的規(guī)律性,所以我在訓練時,沒有要這些特征。
銷量數(shù)據(jù)分析 銷量銷量趨勢分析 銷量與車型的關系
特征工程
模型1
是否春節(jié)特征 車型(model)、車身類型(bodyIype)、省份分別與年份進行分組提作,求得銷量均值 距離2015年12月的月數(shù)間隔特征 車型和省份的組合特征 車型、省份和間隔月份 mt 的組合特征 設置不同月份數(shù)據(jù)的權重值特征 同車型同省份上一個月的銷量
模型2
是否春節(jié)特征。 農(nóng)歷月份 2017年同車型同省份銷量之和同比 2016年的倍數(shù) 距離 2015年12月的月數(shù)間隔特征mt 車型和省份的組合特征 車型、省份和間隔月份 mt 的組合特征 同車型同省份前面第1到第 13個月的銷量 同車型同省份前面第1個月與第 13個月的比值 同車型同省份前面第1個月與第13個月的差值再驗以第13個月的值 同車型同省份前面第1個月與第2個月的比值和差值。 同車型同省份前面第 2個月與第3個月的比值和差事 滑窗特征。分別計算同車型同省份前面3個月和6 個月的均值、標準差 滑窗特征。分別計算同 bodyType 同省份前面3個月和6個月的均值、標準差 滑窗特征。分別計算同省份前面3個月和6個月的均值、標準差 滑商特征。分別計算同bodyType 前面3個月和6 個月的均值、標準差
模型3
距離2015年 12月的月數(shù)間隔特征 mt 車型和省份的組合特征 車型、省份和間隔月份 mt 的組合特征 相同車型、省份前16個月每個月的銷量 比前一年的增長率 每個省份、每個月的車型上一年同月份銷量均值和最小值。 前面的第3、4、15、16個月同車型的銷量均值。并求;前面第15月均值與前面第3個月均值之差與前面第15 個月均值的商;前面第 16月均值與前面第4個月均值之差與前面第16個月均值的商 同車型同省份前面第1、2、11、12個月銷量之和 同車型同省份前面第1、2、3個月銷量之和。(11)同車型同省份前面第1、12個月銷量之和
秋名山車神團隊
特征工程
不同省份 & 不同車型構建不同銷量 基于特征重要性、均值和相關系數(shù)篩選特征

模型選擇
對比XGBoost、LightGBM、CatBoost、LSTM、CNN和Prophet模型,最后選擇LightGBM。
詩人藏夜里團隊
整體方案
從實際業(yè)務場景出發(fā)挖掘有效特征,采用機器學習模型逐月預測 結合前沿神經(jīng)網(wǎng)絡研究成果采用神經(jīng)網(wǎng)絡模型分車型建模預測,最終對不同預測結果分月按不同比例加權驗合

特征工程
將所提取的特征歸為以下幾類:同比、環(huán)比、歷史信息、編碼、差分差比、趨勢、節(jié)假日、其它。
掙錢買地球團隊
本賽題的最為難解決的難點在于驗證集的線上線下不一致的問題,我們放棄了驗證集。
我們會拿預測出來的每個月的總銷量去跟我們猜測的數(shù)據(jù)去比較,如果預測出來的數(shù)據(jù)不是特別高,并且跟猜測的數(shù)據(jù)接近的話,我們會嘗試提交,往往效果都很不錯。
核平精英團隊
特征工程
要仔細考慮教據(jù)的周期性與趨勢性,可分為環(huán)比趨勢及同比趨勢:
環(huán)比方面,主要體現(xiàn)的為該類車在近幾個月內(nèi)銷量的情況 同比方面,主要體現(xiàn)的為該類車當年與去年相比的情況,在這之間也體現(xiàn)了乘用車銷量的年周期性, 對于周期性,將其作為結果評估的依據(jù),對本題所要預測的1-4月,可以明顯的看出其每年的銷量都呈現(xiàn)1月高峰、2月低谷、3和4月有所改善目兩月近平持平的趨勢,若模型預測出的教據(jù)分布不是如此即需調(diào)整。
后處理
隨比賽進行,多次提交過結果后可以猜測,所要預測的18年 1-4月的銷量是偏低的,這時就可以對預測結果乘一個小于1的因子進行調(diào)整。
往期精彩回顧
