開源下載 | 機器學(xué)習(xí)特征工程方法總結(jié).pdf
機器學(xué)習(xí)領(lǐng)域有一句至理名言,那就是數(shù)據(jù)和特征決定了機器學(xué)習(xí)模型的上限,而模型和算法只是不斷的逼近這個上限而已。
縱然算法再厲害,也敵不過大量數(shù)據(jù)訓(xùn)練和精細化特征工程所帶來的效果。有參加過kaggle或者天池等數(shù)據(jù)算法競賽的朋友都知道,top解決方案在最后的算法設(shè)計上其實并沒有本質(zhì)上的差異,大家大量的工作都用在做特征上。所以,特征工程才是機器學(xué)習(xí)的關(guān)鍵所在。
今天要給大家分享的是《Feature Engineering for Machine Learning》一書,中文翻譯名為《精通特征工程》。早年筆者學(xué)習(xí)機器學(xué)習(xí)時,也認真讀完了這本書。

特征工程是機器學(xué)習(xí)流程中至關(guān)重要的一個環(huán)節(jié),然而專門討論這個話題的著作卻寥寥無幾。本書旨在填補這一空白,著重闡明特征工程的基本原則,介紹大量特征工程技術(shù),教你從原始數(shù)據(jù)中提取出正確的特征并將其轉(zhuǎn)換為適合機器學(xué)習(xí)模型的格式,從而輕松構(gòu)建模型,增強機器學(xué)習(xí)算法的效果。
然而,本書并非單純地講述特征工程的基本原則,而是通過大量示例和練習(xí)將重點放在了實際應(yīng)用上。每一章都集中研究一個數(shù)據(jù)問題:如何表示文本數(shù)據(jù)或圖像數(shù)據(jù),如何為自動生成的特征降低維度,何時以及如何對特征進行標(biāo)準(zhǔn)化,等等。最后一章通過一個完整的例子演示了多種特征工程技術(shù)的實際應(yīng)用。書中所有代碼示例均是用Python編寫的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。
數(shù)值型數(shù)據(jù)的特征工程:過濾、分箱、縮放、對數(shù)變換和指數(shù)變換
自然文本技術(shù):詞袋、n元詞與短語檢測
基于頻率的過濾和特征縮放
分類變量編碼技術(shù):特征散列化與分箱計數(shù)
使用主成分分析的基于模型的特征工程
模型堆疊與k-均值特征化
圖像特征提取:人工提取與深度學(xué)習(xí)

對本書感興趣的讀者可以掃描下方二維碼加筆者微信獲取全部講義。
