數(shù)據(jù)預(yù)處理教程來了
預(yù)處理是數(shù)據(jù)分析中必不可少的工程!
預(yù)處理之所以重要,是因為它會對后續(xù)的數(shù)據(jù)分析質(zhì)量、模型預(yù)測精度產(chǎn)生極大影響。我們在實際項目中拿到的數(shù)據(jù)往往是雜亂無章的(數(shù)據(jù)缺失、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)等),要想應(yīng)用恰當(dāng)?shù)姆治龇椒ǖ玫嚼硐虢Y(jié)果,就必須通過一些方法提高數(shù)據(jù)質(zhì)量,而這就是預(yù)處理的工作。
然而,預(yù)處理如此重要,市面上相關(guān)圖書卻少之又少,原因在于預(yù)處理是一項難以總結(jié)的技術(shù),其知識不夠體系。這就導(dǎo)致我們只能得到一些碎片式的信息,無法系統(tǒng)了解。專業(yè)資料之匱乏,可能也是下面這本《數(shù)據(jù)預(yù)處理從入門到實戰(zhàn):基于SQL、R、Python》原版一上市就迅速進入日亞計算機類圖書銷量排行榜No1,并在3個月內(nèi)重印4次的原因之一。

這本書系統(tǒng)總結(jié)了預(yù)處理的常見任務(wù),言簡意賅,255頁,全書結(jié)構(gòu)如下:

這本書的幾大特色:
本書采用問題驅(qū)動式結(jié)構(gòu),先拋出常見預(yù)處理任務(wù),引導(dǎo)讀者思考如何實現(xiàn)。像這樣帶著問題學(xué)習(xí),可以大大提高學(xué)習(xí)效果,讓理解更深入。

(本書例題示例)
分別用SQL、R、Python對比解決相同的案例問題,可以了解各語言在處理各種預(yù)處理問題時有哪些優(yōu)缺點,從而根據(jù)情況選擇合適的語言,提升預(yù)處理效率。
對于每道例題,都同時給出用SQL、R、Python3種語言縮寫的一般代碼與理想代碼,并對代碼中的關(guān)鍵點進行說明。讀者不僅可以邊閱讀邊思考如何修改一般代碼,還可以通過與理想代碼的對比明白如何優(yōu)化代碼。

(案例之一)

(針對案例首先給出預(yù)處理步驟,再分步驟詳細(xì)講解)





