算法工程師必讀!國內(nèi)首本算法評估書籍來了!
↑↑↑點(diǎn)擊上方藍(lán)字,回復(fù)資料,10個(gè)G的驚喜
在工作和學(xué)習(xí)的過程中,有兩個(gè)經(jīng)常困擾程序員的問題,一個(gè)是算法如何設(shè)計(jì)?另一個(gè)是算法如何評估?
算法的設(shè)計(jì)有簡有繁,最簡單的時(shí)候甚至可以用一些規(guī)則來兜底。但是評估方案的設(shè)計(jì)從來馬虎不得,因?yàn)槿魏嗡惴ǘ疾豢赡懿唤?jīng)過合理的評估就上線,未經(jīng)評估就更談不上為公司創(chuàng)造價(jià)值和推動(dòng)社會(huì)發(fā)展。

更重要的是,作為一個(gè)算法工程師,在匯報(bào)工作時(shí),評估結(jié)果是一定要展示的內(nèi)容。可以說,算法的評估方案是決定算法能否上線應(yīng)用的關(guān)鍵因素之一,沒有被合理評估過的算法就是空中樓閣,或許好看,但不實(shí)用。
今天異步君推薦的這本書《機(jī)器學(xué)習(xí)算法評估實(shí)戰(zhàn)》,徹底解決了這兩個(gè)問題。
這本書來自美團(tuán)高級算法工程宋亞統(tǒng)。他將自己在學(xué)習(xí)、工作中總結(jié)的評估方法分享出來,希望職場新人少走彎路。

● 點(diǎn)擊上圖,即可購買《機(jī)器學(xué)習(xí)算法評估實(shí)戰(zhàn)》

何為機(jī)器學(xué)習(xí)算法評估?
何以需要算法評估?
過去的十年中,即互聯(lián)網(wǎng)浪潮的“上半場”中,在人工智能技術(shù)和互聯(lián)網(wǎng)思維的驅(qū)動(dòng)下,做網(wǎng)購的天貓和京東、做餐飲的美團(tuán)、做打車的滴滴、做租房的自如……
這些互聯(lián)網(wǎng)公司如雨后春筍般迅猛發(fā)展,公司業(yè)務(wù)幾乎涵蓋了人們衣食住行的方方面面。其中,機(jī)器學(xué)習(xí)在各公司的業(yè)務(wù)實(shí)踐中初露鋒芒。從天貓的商品個(gè)性化推薦,到百度的語義識(shí)別,再到京東的無人配送,機(jī)器學(xué)習(xí)都發(fā)揮了不可替代的作用。
機(jī)器學(xué)習(xí)的評估體系也承擔(dān)了重要的任務(wù),人們通過一些常規(guī)的指標(biāo),基本能夠完成對算法質(zhì)量的初步判斷,從而使算法在應(yīng)用中達(dá)到預(yù)期的效果。

然而,在互聯(lián)網(wǎng)浪潮的“下半場”中,競爭逐漸激烈、市場趨于穩(wěn)定,許多公司已經(jīng)有了屬于自己的一片“領(lǐng)地”。對于大公司,“下半場”更多地意味著“精耕細(xì)作”和“國際化”,“精耕細(xì)作”指進(jìn)一步提升效率和降低成本,“國際化”則指將平臺(tái)和世界接軌,真正將自己的品牌推向世界。
而對于后入場的小公司,則意味著兩條發(fā)展路線,一條是研發(fā)領(lǐng)先于市場的新技術(shù)和新產(chǎn)品,做尖端服務(wù),這可能難度較大;另一條就是走精細(xì)化路線,專注于某一個(gè)垂直領(lǐng)域,也就是大公司的業(yè)務(wù)涵蓋不到的業(yè)務(wù)場景,提供差異化服務(wù)。
由此可見,在“下半場”的競爭中,我們對機(jī)器學(xué)習(xí)算法的研發(fā)都需要更加專業(yè)化和精細(xì)化,機(jī)器學(xué)習(xí)算法的評估更是重中之重!
你知道什么是機(jī)器學(xué)習(xí)算法評估嗎?
隨著科技的發(fā)展和普及,“機(jī)器學(xué)習(xí)”已經(jīng)不再是一個(gè)高冷的技術(shù)名詞。諸葛越在《百面機(jī)器學(xué)習(xí)》一書中對機(jī)器學(xué)習(xí)的定義是這樣的:“機(jī)器學(xué)習(xí)指計(jì)算機(jī)通過觀察環(huán)境,與環(huán)境交互,在吸取信息中學(xué)習(xí)、自我更新和進(jìn)步?!?br style="box-sizing: border-box;">

我們可以大致理解為,機(jī)器學(xué)習(xí)就是計(jì)算機(jī)通過模擬人的學(xué)習(xí)方法,對一些訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)的過程。一旦計(jì)算機(jī)獲得了相應(yīng)的“知識(shí)”,就能夠像人一樣做出智慧的推導(dǎo)和判斷。
而機(jī)器學(xué)習(xí)算法評估就是用科學(xué)的指標(biāo),對機(jī)器學(xué)習(xí)算法進(jìn)行完整、可靠的評價(jià),并給出有條理的、可解釋的結(jié)論的過程。
任何產(chǎn)業(yè)都需要一個(gè)合理的檢測機(jī)制來判斷這些產(chǎn)品是否合格。算法的評估就是互聯(lián)網(wǎng)產(chǎn)業(yè)的一種檢測機(jī)制,它告訴開發(fā)人員算法的可靠性和合理性等重要信息,作為算法能否上線應(yīng)用的重要依據(jù)。
那么我們?yōu)槭裁葱枰惴ㄔu估呢?
機(jī)器學(xué)習(xí)能在短短數(shù)年間廣泛普及,與它的智能性、穩(wěn)定性和可靠性是密不可分的,機(jī)器學(xué)習(xí)算法完善的評估體系正是這些優(yōu)秀特性的可靠保障。一個(gè)優(yōu)秀的算法在上線之前,一定要經(jīng)過嚴(yán)密、周全的評估,才能在上線后發(fā)揮出令人驚嘆的“人工智能之美”,正所謂“寶劍鋒從磨礪出,梅花香自苦寒來”。

很多從業(yè)人員,尤其是職場新人,往往把模型的訓(xùn)練和算法的設(shè)計(jì)作為最重要的工作,卻忽視了算法評估的重要性。然而,在很多領(lǐng)域,評估體系的構(gòu)建甚至要先于算法設(shè)計(jì)。
沒有可靠的評估體系,算法即便研發(fā)出來也不具備上線服務(wù)的能力,因?yàn)闆]有人能保證它的可靠性??梢哉f,沒有好的評估體系,就沒有算法的廣泛普及。
無論是大公司還是小公司,在互聯(lián)網(wǎng)浪潮的“下半場”的競爭中,對機(jī)器學(xué)習(xí)算法的研發(fā)都需要更加專業(yè)化和精細(xì)化。

在機(jī)器學(xué)習(xí)算法評估的問題上,傳統(tǒng)領(lǐng)域的很多指標(biāo)不一定能適應(yīng)新的領(lǐng)域,因此在新的領(lǐng)域中需要新的評估指標(biāo)來提供特定業(yè)務(wù)場景下的個(gè)性化服務(wù)。
而對于職場上的個(gè)體,掌握一套科學(xué)高效的評估理論,不僅可以大大提高自己的工作效率,也能更好地向上級領(lǐng)導(dǎo)展示自己的工作成果,在職場發(fā)展中取得事半功倍的效果。
亟需算法評估?。?/strong>

你真的會(huì)評估嗎?
評估體系的關(guān)鍵因素又是什么?
算法評估是如此重要,但我想真誠地問你一句:“你真的會(huì)評估嗎?”
當(dāng)然,有些從業(yè)人員會(huì)說,算法的評估不就是看算法的效果和性能嗎?這些在剛?cè)腴T的時(shí)候就學(xué)過啊。
對此,我只想說算法評估并不是這么簡單的一回事。真正地將一個(gè)算法用于工業(yè)生產(chǎn)并產(chǎn)生巨大的商業(yè)價(jià)值,只依靠這些書本上學(xué)來的“指標(biāo)”是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)樵趯?shí)際應(yīng)用過程中,大部分指標(biāo)只能反映算法的部分效果。如果不能合理地運(yùn)用評估指標(biāo),不僅不能發(fā)現(xiàn)算法本身的問題,還可能得出錯(cuò)誤的結(jié)論。

比如,當(dāng)你在進(jìn)行異常檢測算法的評估時(shí),假設(shè)次品出現(xiàn)的概率是0.1%,如果算法把所有樣本都預(yù)測為正品,準(zhǔn)確率雖然也能保證99.9%,但是這樣的結(jié)果對于異常檢測是沒有任何意義的,因?yàn)檫@樣的算法空有好看的準(zhǔn)確率指標(biāo),卻一個(gè)次品都識(shí)別不出來。
再比如用于識(shí)別財(cái)務(wù)數(shù)據(jù)的圖像識(shí)別系統(tǒng),即使在1萬張發(fā)票中只有1張把數(shù)字“8”誤讀為“6”,給使用方造成的損失也很可能是難以彌補(bǔ)的。
這些例子告訴我們,一個(gè)好的算法并不能只有一堆漂亮的數(shù)字指標(biāo),更關(guān)鍵的是它要符合實(shí)際的業(yè)務(wù)場景,能夠應(yīng)對現(xiàn)實(shí)環(huán)境中各種復(fù)雜的情況。

因此,我們講算法的評估,從來不是依靠一個(gè)或幾個(gè)聽起來“高大上”的評估指標(biāo),而是要依賴一個(gè)完整的、可靠的評估體系。一句話總結(jié),即指標(biāo)不重要,實(shí)用才可靠。
制定機(jī)器學(xué)習(xí)算法評估標(biāo)準(zhǔn)可以從以下3個(gè)方面入手。
(1)根據(jù)不同類型的算法制定不同的通用評估標(biāo)準(zhǔn)。比如,對于分類算法和回歸算法,需要分別使用一套評估指標(biāo)進(jìn)行評估。
(2)對于實(shí)現(xiàn)原理不同的算法,需要分別制定評估標(biāo)準(zhǔn)。比如,在評估樹模型和深度學(xué)習(xí)算法解決分類問題的效果時(shí),除了使用分類算法的通用指標(biāo),還需要針對每一種算法定義評估指標(biāo)。
(3)針對不同的業(yè)務(wù)場景制定評估標(biāo)準(zhǔn)。比如,用深度學(xué)習(xí)算法進(jìn)行文本分類和路線排序,這兩種業(yè)務(wù)本質(zhì)上都是用深度學(xué)習(xí)算法解決分類問題,但是文本分類業(yè)務(wù)和路線排序業(yè)務(wù)的評估指標(biāo)是有很大區(qū)別的。
“車之所以能轉(zhuǎn)千里者,以其要在三寸之轄。”我們都知道抓住關(guān)鍵對整體是有重大意義的,可以說是以一持萬。那么評估體系的關(guān)鍵因素又是什么?

● 實(shí)用性
算法能夠上線的最基本條件就是要切合實(shí)際業(yè)務(wù)場景,因此,評估體系首先應(yīng)該能夠解釋清楚一個(gè)算法是否能夠解決實(shí)際的業(yè)務(wù)問題。
● 容錯(cuò)程度
評估體系應(yīng)該告訴算法設(shè)計(jì)者,這個(gè)算法在什么情況下是一定適用的、不會(huì)出錯(cuò)的;在什么情況下不能保證準(zhǔn)確性,需要采取其他“兜底”策略來補(bǔ)充。
● 性能
如果說實(shí)用性是決定算法是否有研發(fā)價(jià)值的標(biāo)桿,那么性能評估則是決定算法是否能落地實(shí)施的準(zhǔn)繩。無論一個(gè)算法的業(yè)務(wù)效果表現(xiàn)多么出色,如果性能不符合實(shí)際生產(chǎn)的需要,那么它也只是紙上談兵。
● 可解釋性
算法設(shè)計(jì)是一門學(xué)科,所有的數(shù)據(jù)指標(biāo)都必須具備科學(xué)的依據(jù)才能成立,得到的評估結(jié)論不能輕易被上級領(lǐng)導(dǎo)和客戶推翻。
● 表現(xiàn)形式
表現(xiàn)形式是直接決定你的算法評估結(jié)果能否被上級領(lǐng)導(dǎo)寫入PPT的關(guān)鍵因素之一。評估結(jié)果能用圖展示就不要用表,能用表展示就不要用文字,畢竟每個(gè)人都不愿意花費(fèi)過多時(shí)間在復(fù)雜的文字閱讀理解上。

這本書教會(huì)你什么?
“書籍是前人的經(jīng)驗(yàn)?!?/span>
—拉布雷
《機(jī)器學(xué)習(xí)算法評估實(shí)戰(zhàn)》便是作者的經(jīng)驗(yàn)匯成的大成之作。機(jī)器學(xué)習(xí)算法評估就是用科學(xué)的指標(biāo),對機(jī)器學(xué)習(xí)算法的智能性、穩(wěn)定性與可靠性進(jìn)行完整、可靠的評價(jià),并給出有條理的、可解釋的結(jié)論。
一個(gè)優(yōu)秀的算法在上線之前,一定要經(jīng)過嚴(yán)密、周全的評估,才能應(yīng)對現(xiàn)實(shí)業(yè)務(wù)環(huán)境的復(fù)雜情況,充分發(fā)揮令人驚嘆的“人工智能之美”。而這本書就不僅僅傳授于你機(jī)器學(xué)習(xí)算法相關(guān)的理論知識(shí),還教會(huì)了你如何正確進(jìn)行機(jī)器學(xué)習(xí)算法評估。

這本書詳細(xì)介紹機(jī)器學(xué)習(xí)算法評估的理論、方法和實(shí)踐。全書分為3個(gè)部分。
第1部分包含第1章~第3章,針對分類算法、回歸算法和聚類算法分別介紹對應(yīng)的基礎(chǔ)理論和評估方法;
第2部分包含第4章~第8章,介紹更復(fù)雜的模型(如深度學(xué)習(xí)模型和集成樹模型)的對比與評估,并且針對它們實(shí)際應(yīng)用的業(yè)務(wù)場景介紹一些特有的評估指標(biāo)和評估體系;
第3部分包含第9章~第11章,總結(jié)算法評估的常用工具、技術(shù)及方法論,包括實(shí)用的可視化工具介紹,并討論機(jī)器學(xué)習(xí)算法的本質(zhì)。
這本書是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的專業(yè)圖書,對于具備一定基礎(chǔ)算法知識(shí)的讀者,是一本能夠提升實(shí)際操作能力和算法理解程度的書;
對于剛?cè)腴T機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的讀者,本書提供了大量的圖片和表格,盡可能用通俗易懂的方式把難以理解的知識(shí)點(diǎn)講解清晰,容易理解和記憶。
因此,讀者只要具備機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí),本書都可以作為其提升專業(yè)技能的“不二選擇”。
本書特色:
● 圖文并茂,全彩印刷,完整而系統(tǒng)地介紹機(jī)器學(xué)習(xí)算法評估理論;
● 配套源碼,基于業(yè)務(wù)場景評價(jià)算法上線服務(wù)的可靠性;
● 利用算法評估工具進(jìn)行實(shí)踐,探索機(jī)器學(xué)習(xí)算法本質(zhì);
......

求學(xué)若渴,好書推薦!
一入機(jī)器學(xué)習(xí)深似海,算法學(xué)習(xí)深幾許?開卷有益,在這里,我還為你精心準(zhǔn)備三本寶書,愿你與書同行。
●《百面機(jī)器學(xué)習(xí) 算法工程師帶你去面試》

● 點(diǎn)擊上圖,即可購買《百面機(jī)器學(xué)習(xí) 算法工程師帶你去面試》
內(nèi)容簡介:
人工智能領(lǐng)域正在以超乎人們想象的速度發(fā)展,本書趕在人工智能徹底占領(lǐng)世界之前完成編寫,實(shí)屬萬幸。
書中收錄了超過100道機(jī)器學(xué)習(xí)算法工程師的面試題目和解答,其中大部分源于Hulu算法研究崗位的真實(shí)場景。
本書從日常工作、生活中各種有趣的現(xiàn)象出發(fā),不僅囊括了機(jī)器學(xué)習(xí)的基本知識(shí),而且還包含了成為出眾算法工程師的相關(guān)技能,更重要的是凝聚了筆者對人工智能領(lǐng)域的一顆熱忱之心,旨在培養(yǎng)讀者發(fā)現(xiàn)問題、解決問題、擴(kuò)展問題的能力,建立對機(jī)器學(xué)習(xí)的熱愛,共繪人工智能世界的宏偉藍(lán)圖。
●《機(jī)器學(xué)習(xí)的數(shù)學(xué)》

● 點(diǎn)擊上圖,即可購買《機(jī)器學(xué)習(xí)的數(shù)學(xué)》
內(nèi)容簡介:
本書的目標(biāo)是幫助讀者全面、系統(tǒng)地學(xué)習(xí)機(jī)器學(xué)習(xí)所必須的數(shù)學(xué)知識(shí)。全書由8章組成,力求精準(zhǔn)、最小地覆蓋機(jī)器學(xué)習(xí)的數(shù)學(xué)知識(shí)。
包括微積分,線性代數(shù)與矩陣論,最優(yōu)化方法,概率論,信息論,隨機(jī)過程,以及圖論。本書從機(jī)器學(xué)習(xí)的角度講授這些數(shù)學(xué)知識(shí),對它們在該領(lǐng)域的應(yīng)用舉例說明,使讀者對某些抽象的數(shù)學(xué)知識(shí)和理論的實(shí)際應(yīng)用有直觀、具體的認(rèn)識(shí)。
本書內(nèi)容緊湊,結(jié)構(gòu)清晰,深入淺出,講解詳細(xì)。可用作計(jì)算機(jī)、人工智能、電子工程、自動(dòng)化、數(shù)學(xué)等相關(guān)專業(yè)的教材與教學(xué)參考書。對人工智能領(lǐng)域的工程技術(shù)人員與產(chǎn)品研發(fā)人員,本書也有很強(qiáng)的參考價(jià)值。對于廣大數(shù)學(xué)與應(yīng)用的數(shù)學(xué)愛好者,本書亦為適合自學(xué)的讀本。
●《人工智能算法(卷3):深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)》

● 點(diǎn)擊上圖,即可購買《人工智能算法(卷3):深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)》
內(nèi)容簡介:
自人工智能的早期階段以來,神經(jīng)網(wǎng)絡(luò)就扮演著至關(guān)重要的角色?,F(xiàn)在,令人興奮的新技術(shù),例如深度學(xué)習(xí)和卷積,正在將神經(jīng)網(wǎng)絡(luò)帶向一個(gè)全新的方向。
本書結(jié)合各種現(xiàn)實(shí)世界任務(wù)中的神經(jīng)網(wǎng)絡(luò)應(yīng)用,例如圖像識(shí)別和數(shù)據(jù)科學(xué),介紹了當(dāng)前的神經(jīng)網(wǎng)絡(luò)技術(shù),包括ReLU激活、隨機(jī)梯度下降、交叉熵、正則化、Dropout和可視化。
本書的目標(biāo)讀者是那些對人工智能感興趣,但苦于沒有良好的數(shù)學(xué)基礎(chǔ)的人。讀者只需要對大學(xué)代數(shù)課程有基本了解即可。本書為讀者提供配套的示例程序代碼,目前已有Java、C#和Python版本。
也可以加一下老胡的微信 圍觀朋友圈~~~
推薦閱讀
(點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)
深度學(xué)習(xí)的四個(gè)學(xué)習(xí)階段!
2021年,機(jī)器學(xué)習(xí)研究風(fēng)向要變了?
【機(jī)器學(xué)習(xí)】隨機(jī)森林是我最喜歡的模型
Python之父:Python 4.0可能不會(huì)來了
老鐵,三連支持一下,好嗎?↓↓↓
