數(shù)據(jù)挖掘提分三板斧!
內(nèi)容概括
數(shù)據(jù)挖掘提分三板斧:
1.金斧-數(shù)據(jù)清洗和特征工程
2.銀斧-模型參數(shù)調(diào)節(jié)
3.銅斧-模型集成
PPT下載:后臺回復(fù)“210406”可獲取
視頻地址:https://www.bilibili.com/video/BV1MU4y1h75G
數(shù)據(jù)清洗和特征工程


1.缺失值處理:

2.異常值處理:

數(shù)據(jù)清洗-數(shù)據(jù)分桶
3.數(shù)據(jù)分桶:

4.數(shù)據(jù)標(biāo)準(zhǔn)化:在不同的問題中,標(biāo)準(zhǔn)化的意義不同
(1)在回歸預(yù)測中,標(biāo)準(zhǔn)化是為了讓特征值有均等的權(quán)重;
(2)在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,通過將數(shù)據(jù)標(biāo)準(zhǔn)化,能夠加速權(quán)重參數(shù)的收斂;
(3)主成分分析中,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;默認(rèn)指標(biāo)間權(quán)重相等,不考慮指標(biāo)間差異和相互影響。
數(shù)據(jù)清洗的示例:

1.特征構(gòu)造:


2.特征選擇:

特征工程的示例:

模型參數(shù)調(diào)節(jié)

一、關(guān)于建模調(diào)參

1.理解模型

2.性能驗(yàn)證

3.模型調(diào)參

模型集成

一、關(guān)于模型集成

1.加權(quán)融合

2.Boosting/Bagging

3.Stacking/Blending

模型集成示例:

本文作者
王茂霖,Datawhale重要貢獻(xiàn)成員,Datawhale&天池?cái)?shù)據(jù)挖掘?qū)W習(xí)賽開源內(nèi)容發(fā)起人,全網(wǎng)閱讀超10w。
參賽30余次,獲得BCIC-數(shù)字中國創(chuàng)新創(chuàng)業(yè)大賽亞軍,全球城市計(jì)算AI挑戰(zhàn)賽,Alibaba Cloud German AI Challenge等多項(xiàng)Top10。
分享地址
復(fù)制鏈接打開(或閱讀原文) https://www.bilibili.com/video/BV1MU4y1h75G
往期精彩回顧
本站qq群851320808,加入微信群請掃碼:
