機(jī)器學(xué)習(xí)的心腹大患:數(shù)據(jù)泄漏
應(yīng)用于整個(gè)數(shù)據(jù)集的簡(jiǎn)單的數(shù)據(jù)準(zhǔn)備方法會(huì)導(dǎo)致數(shù)據(jù)泄漏,從而導(dǎo)致對(duì)模型性能的錯(cuò)誤估計(jì)。
為了避免數(shù)據(jù)泄漏,數(shù)據(jù)準(zhǔn)備應(yīng)該只在訓(xùn)練集中進(jìn)行。
如何在Python中用訓(xùn)練測(cè)試集劃分和k折交叉驗(yàn)證實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備而又不造成數(shù)據(jù)泄漏。
用原始數(shù)據(jù)準(zhǔn)備方法進(jìn)行訓(xùn)練-測(cè)試評(píng)估
用正確的數(shù)據(jù)準(zhǔn)備方法進(jìn)行訓(xùn)練-測(cè)試評(píng)估
用原始數(shù)據(jù)準(zhǔn)備方法進(jìn)行交叉驗(yàn)證評(píng)估
用正確的數(shù)據(jù)準(zhǔn)備方法進(jìn)行交叉驗(yàn)證評(píng)估
?—第54-55頁(yè),特征工程與選擇,2019年?!?/span>
















—第55頁(yè),特征工程與選擇,2019年?!?/span>




直接將數(shù)據(jù)準(zhǔn)備方法應(yīng)用于整個(gè)數(shù)據(jù)集會(huì)導(dǎo)致數(shù)據(jù)泄漏,從而導(dǎo)致對(duì)模型性能的錯(cuò)誤估計(jì)。
為了避免數(shù)據(jù)泄漏,必須僅在訓(xùn)練集中進(jìn)行數(shù)據(jù)準(zhǔn)備。
如何在Python中為訓(xùn)練集-測(cè)試集分割和k折交叉驗(yàn)證實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備而又不會(huì)造成數(shù)據(jù)泄漏。
原文鏈接:
https://machinelearningmastery.com/data-preparation-without-data-leakage/
推薦閱讀
(點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)
玩機(jī)器學(xué)習(xí),再也不缺數(shù)據(jù)集了
用BERT奪騰訊算法大賽50萬(wàn)元大獎(jiǎng)!
集成學(xué)習(xí):一種先進(jìn)的機(jī)器學(xué)習(xí)方法
老鐵,三連支持一下,好嗎?↓↓↓

