周志華教授《集成學(xué)習(xí):基礎(chǔ)與算法》發(fā)布,詳解集成學(xué)習(xí)方法
近年來,機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展推動(dòng)了語音、自然語言處理、機(jī)器視覺等多個(gè)領(lǐng)域獲得巨大進(jìn)步,也帶動(dòng)了人工智能相關(guān)產(chǎn)業(yè)的蓬勃發(fā)展。
回顧機(jī)器學(xué)習(xí)最近30 年的發(fā)展歷程,各種學(xué)習(xí)方法推陳出新、不斷演進(jìn)。但是,在此歷程中,通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)的集成學(xué)習(xí)方法,始終是提升學(xué)習(xí)效果的重要手段,成為機(jī)器學(xué)習(xí)領(lǐng)域的“常青樹”,受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。

在這個(gè)深度學(xué)習(xí)應(yīng)用取得巨大成功的當(dāng)下,我們無法忽視集成學(xué)習(xí)在其中所發(fā)揮的巨大作用。在深度學(xué)習(xí)方法之上引入集成學(xué)習(xí)仍然是許多深度學(xué)習(xí)專家用來提升效果的重要手段。
集成學(xué)習(xí)技術(shù)已在人工智能實(shí)踐中被廣泛使用,例如,對搜索、推薦、廣告的核心任務(wù)——點(diǎn)擊率預(yù)估而言,GBDT (Gradient Boosting Decision Trees)因其穩(wěn)定、優(yōu)異的效果一直是事實(shí)上的工業(yè)標(biāo)準(zhǔn);在語音識別領(lǐng)域,基于集成深度學(xué)習(xí)的聲學(xué)模型極大提升了識別效果;在異常檢測上,iForest 因其極高的檢測效率在實(shí)踐中備受關(guān)注。
? 那么,什么是集成學(xué)習(xí)?
簡而言之,集成學(xué)習(xí)從數(shù)據(jù)中顯式或隱式地學(xué)習(xí)多個(gè)模型,并將它們有效結(jié)合以獲得更可靠和更準(zhǔn)確的預(yù)測。因此,集成學(xué)習(xí)的關(guān)鍵是(a)如何從數(shù)據(jù)中學(xué)習(xí)多樣且準(zhǔn)確的模型,以及(b)如何有效地結(jié)合它們以獲得更好的結(jié)果。
集成學(xué)習(xí)與其他機(jī)器學(xué)習(xí)方法的核心區(qū)別在于:
它專注于偏差-方差權(quán)衡(Bias-Variance Tradeoff)問題——這是所有機(jī)器學(xué)習(xí)方法(無論是深度學(xué)習(xí),還是經(jīng)典機(jī)器學(xué)習(xí)方法)與生俱來的根本問題。
正是這個(gè)獨(dú)特的研究視角,使集成學(xué)習(xí)對包括深度學(xué)習(xí)在內(nèi)的所有機(jī)器學(xué)習(xí)方法都很有價(jià)值。
?? /
雖然在人類社會中,使用多個(gè)模型解決問題的基本想法有著悠久的歷史,但關(guān)于集成學(xué)習(xí)方面的專著卻少得可憐。
為了反映集成學(xué)習(xí)領(lǐng)域的快速發(fā)展,周志華教授進(jìn)行了一次更新的深入回顧,由此森林書Ensemble Methods誕生了!?
作為一本系統(tǒng)性闡述集成學(xué)習(xí)的著作,本書在國外一出版便引發(fā)了領(lǐng)域內(nèi)的巨大轟動(dòng)。在亞馬遜AMAZON上,本書擁有4星+的好成績,“Great Book”一詞更是被讀者們刷爆評論區(qū)!

被譽(yù)為目前全球影響力最高書評網(wǎng)站之一的Goodreads上,同樣有著4星+的好成績。

“閱讀本書后我學(xué)到了很多新技巧。”讀者對本書的喜愛也溢于言表。

由于Ensemble Methods在國內(nèi)非常難買到,本書在豆瓣讀書上的參評人數(shù)不多,但一小部分有機(jī)會讀過原著的同學(xué)硬生生把分?jǐn)?shù)給到了逆天的10分滿星!

讀者好評從2016年橫跨至2019年,無一不被這部森林書的魅力折服。

? 通殺豆瓣、亞馬遜、Goodreads的森林書,都講了什么?
全書化繁為簡,用通俗易懂的表述方式重點(diǎn)講解集成學(xué)習(xí)的主流代表性技術(shù)?Boosting?,并詳釋了重要算法的實(shí)現(xiàn)。集成學(xué)習(xí)方法在實(shí)踐中獲得了巨大成功,本書也向讀者闡述了集成學(xué)習(xí)在如計(jì)算機(jī)視覺、醫(yī)療、信息安全和數(shù)據(jù)挖掘競賽等領(lǐng)域中的?應(yīng)用實(shí)踐?。
本書面向研究人員、學(xué)生和實(shí)踐者介紹集成學(xué)習(xí)方法。全書共8章,分為三部分。
第一部分主要介紹集成學(xué)習(xí)的背景知識。
第二部分主要介紹集成學(xué)習(xí)方法的核心知識,包括Boosting、Bagging、Random Forests 等經(jīng)典算法,平均、投票和Stacking 等模型和方法、相關(guān)理論分析工作,以及多樣性度量和增強(qiáng)方面的進(jìn)展。
第三部分介紹集成學(xué)習(xí)方法的進(jìn)階議題,包括集成修剪、聚類集成和集成學(xué)習(xí)方法在半監(jiān)督學(xué)習(xí)、主動(dòng)學(xué)習(xí)、代價(jià)敏感學(xué)習(xí)、類別不平衡學(xué)習(xí)及提升可理解性方面的進(jìn)展。
此外,本書還在每章的“拓展閱讀”部分提供了相關(guān)的進(jìn)階內(nèi)容。
? 森林書——中文版來了!
圖書資源的匱乏,給國內(nèi)從事集成學(xué)習(xí)研究和實(shí)踐的人們帶來了很大的障礙!值得慶幸的是,李楠博士現(xiàn)將這部深入剖析集成學(xué)習(xí)思想的著作進(jìn)行了高質(zhì)量地翻譯!
李楠博士畢業(yè)于南京大學(xué)計(jì)算機(jī)系機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所(LAMDA),師從周志華教授從事機(jī)器學(xué)習(xí)研究。曾發(fā)表論文20余篇,并獲國際數(shù)據(jù)挖掘競賽冠軍及最佳論文獎(jiǎng)。先后供職于阿里巴巴iDST/達(dá)摩院和微軟亞洲互聯(lián)網(wǎng)工程院,長期從事機(jī)器學(xué)習(xí)在互聯(lián)網(wǎng)搜索、推薦和廣告中的研究和應(yīng)用工作。
李楠博士擁有非常豐富的理論基礎(chǔ)與實(shí)踐經(jīng)驗(yàn),確保了中文版忠于原著且行文流暢。
人工智能探索與實(shí)踐叢書
《集成學(xué)習(xí):基礎(chǔ)與算法》

周志華 著 ,李楠 譯
國內(nèi)獨(dú)本剖析集成學(xué)習(xí)的著作
▼新書預(yù)售中,掃碼獲取詳情▼
本書中文版的上市迅速得到了很多大佬的關(guān)注!
阿里巴巴集團(tuán)副總裁、達(dá)摩院副院長金榕教授更是為本書熱情作序力薦!在推薦序中,金榕教授這樣寫道:
在本書中,作者充分闡述了偏差-方差權(quán)衡問題的背景知識,足以使對統(tǒng)計(jì)學(xué)不太了解的讀者也能很好地理解該問題。
此外,作者在闡述集成學(xué)習(xí)的廣度(集成學(xué)習(xí)的全貌) 和深度(單個(gè)算法的實(shí)現(xiàn))上做了很好的平衡,結(jié)構(gòu)合理,使得本書能真正惠及廣大讀者。
