精通特征工程
特征工程是機(jī)器學(xué)習(xí)流程中至關(guān)重要的一個(gè)環(huán)節(jié),然而專門討論這個(gè)話題的著作卻寥寥無幾。本書旨在填補(bǔ)這一空白,著重闡明特征工程的基本原則,介紹大量特征工程技術(shù),教你從原始數(shù)據(jù)中提取出正確的特征并將其轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型的格式,從而輕松構(gòu)建模型,增強(qiáng)機(jī)器學(xué)習(xí)算法的效果。
然而,本書并非單純地講述特征工程的基本原則,而是通過大量示例和練習(xí)將重點(diǎn)放在了實(shí)際應(yīng)用上。每一章都集中研究一個(gè)數(shù)據(jù)問題:如何表示文本數(shù)據(jù)或圖像數(shù)據(jù),如何為自動生成的特征降低維度,何時(shí)以及如何對特征進(jìn)行標(biāo)準(zhǔn)化,等等。最后一章通過一個(gè)完整的例子演示了多種特征工程技術(shù)的實(shí)際應(yīng)用。書中所有代碼示例均是用 Python 編寫的,涉及 NumPy、Pandas、scikit-learn 和 Matplotlib 等程序包。
? 數(shù)值型數(shù)據(jù)的特征工程:過濾、分箱、縮放、對數(shù)變換和指數(shù)變換
? 自然文本技...
特征工程是機(jī)器學(xué)習(xí)流程中至關(guān)重要的一個(gè)環(huán)節(jié),然而專門討論這個(gè)話題的著作卻寥寥無幾。本書旨在填補(bǔ)這一空白,著重闡明特征工程的基本原則,介紹大量特征工程技術(shù),教你從原始數(shù)據(jù)中提取出正確的特征并將其轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型的格式,從而輕松構(gòu)建模型,增強(qiáng)機(jī)器學(xué)習(xí)算法的效果。
然而,本書并非單純地講述特征工程的基本原則,而是通過大量示例和練習(xí)將重點(diǎn)放在了實(shí)際應(yīng)用上。每一章都集中研究一個(gè)數(shù)據(jù)問題:如何表示文本數(shù)據(jù)或圖像數(shù)據(jù),如何為自動生成的特征降低維度,何時(shí)以及如何對特征進(jìn)行標(biāo)準(zhǔn)化,等等。最后一章通過一個(gè)完整的例子演示了多種特征工程技術(shù)的實(shí)際應(yīng)用。書中所有代碼示例均是用 Python 編寫的,涉及 NumPy、Pandas、scikit-learn 和 Matplotlib 等程序包。
? 數(shù)值型數(shù)據(jù)的特征工程:過濾、分箱、縮放、對數(shù)變換和指數(shù)變換
? 自然文本技術(shù):詞袋、n元詞與短語檢測
? 基于頻率的過濾和特征縮放
? 分類變量編碼技術(shù):特征散列化與分箱計(jì)數(shù)
? 使用主成分分析的基于模型的特征工程
? 模型堆疊與k-均值特征化
? 圖像特征提?。喝斯ぬ崛∨c深度學(xué)習(xí)
愛麗絲 ·鄭(Alice Zheng)是應(yīng)用機(jī)器學(xué)習(xí)、生成算法和平臺開發(fā)領(lǐng)域的一位技術(shù)領(lǐng)導(dǎo)者。她現(xiàn)在擔(dān)任 Amazon Advertising 的研究經(jīng)理,此前曾在 GraphLab/Data/Turi 從事工具開發(fā)和用戶培訓(xùn),并在微軟研究院擔(dān)任過機(jī)器學(xué)習(xí)研究員。她在加州大學(xué)伯克利分校獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位和數(shù)學(xué)學(xué)士學(xué)位以及電子工程和計(jì)算機(jī)科學(xué)博士學(xué)位。
阿曼達(dá) ·卡薩麗(Amanda Casari)是一位領(lǐng)導(dǎo)者和工程師,研究興趣是下一代技術(shù)以及如何充分展示出它們的影響。她現(xiàn)在是 Concur Labs 的高級產(chǎn)品經(jīng)理和數(shù)據(jù)科學(xué)家,也是 SAP Concur 的 Concur Labs AI Research 團(tuán)隊(duì)的聯(lián)合創(chuàng)始人。在過去的16年中,她擔(dān)任過多種跨職能職務(wù),涉足過多種工程領(lǐng)域,包括數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、復(fù)雜系統(tǒng)和機(jī)器人。她在美國海軍學(xué)院獲...
愛麗絲 ·鄭(Alice Zheng)是應(yīng)用機(jī)器學(xué)習(xí)、生成算法和平臺開發(fā)領(lǐng)域的一位技術(shù)領(lǐng)導(dǎo)者。她現(xiàn)在擔(dān)任 Amazon Advertising 的研究經(jīng)理,此前曾在 GraphLab/Data/Turi 從事工具開發(fā)和用戶培訓(xùn),并在微軟研究院擔(dān)任過機(jī)器學(xué)習(xí)研究員。她在加州大學(xué)伯克利分校獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位和數(shù)學(xué)學(xué)士學(xué)位以及電子工程和計(jì)算機(jī)科學(xué)博士學(xué)位。
阿曼達(dá) ·卡薩麗(Amanda Casari)是一位領(lǐng)導(dǎo)者和工程師,研究興趣是下一代技術(shù)以及如何充分展示出它們的影響。她現(xiàn)在是 Concur Labs 的高級產(chǎn)品經(jīng)理和數(shù)據(jù)科學(xué)家,也是 SAP Concur 的 Concur Labs AI Research 團(tuán)隊(duì)的聯(lián)合創(chuàng)始人。在過去的16年中,她擔(dān)任過多種跨職能職務(wù),涉足過多種工程領(lǐng)域,包括數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、復(fù)雜系統(tǒng)和機(jī)器人。她在美國海軍學(xué)院獲得了控制系統(tǒng)工程學(xué)士學(xué)位,在佛蒙特大學(xué)獲得了電子工程碩士學(xué)位。
