三張圖讀懂機(jī)器學(xué)習(xí):基本概念、五大流派與九種常見算法
點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號
重磅干貨,第一時間送達(dá)
報(bào)道| 深度學(xué)習(xí)沖鴨 編輯|王萌
著作權(quán)歸作者所有,本文僅作學(xué)術(shù)分享,若侵權(quán),請聯(lián)系后臺刪文處理
一、機(jī)器學(xué)習(xí)概覽

1. 什么是機(jī)器學(xué)習(xí)?
機(jī)器通過分析大量數(shù)據(jù)來進(jìn)行學(xué)習(xí)。比如說,不需要通過編程來識別貓或人臉,它們可以通過使用圖片來進(jìn)行訓(xùn)練,從而歸納和識別特定的目標(biāo)。
2. 機(jī)器學(xué)習(xí)和人工智能的關(guān)系
機(jī)器學(xué)習(xí)是一種重在尋找數(shù)據(jù)中的模式并使用這些模式來做出預(yù)測的研究和算法的門類。機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的一部分,并且和知識發(fā)現(xiàn)與數(shù)據(jù)挖掘有所交集。

3. 機(jī)器學(xué)習(xí)的工作方式
①選擇數(shù)據(jù):將你的數(shù)據(jù)分成三組:訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)
②模型數(shù)據(jù):使用訓(xùn)練數(shù)據(jù)來構(gòu)建使用相關(guān)特征的模型
③驗(yàn)證模型:使用你的驗(yàn)證數(shù)據(jù)接入你的模型
④測試模型:使用你的測試數(shù)據(jù)檢查被驗(yàn)證的模型的表現(xiàn)
⑤使用模型:使用完全訓(xùn)練好的模型在新數(shù)據(jù)上做預(yù)測
⑥調(diào)優(yōu)模型:使用更多數(shù)據(jù)、不同的特征或調(diào)整過的參數(shù)來提升算法的性能表現(xiàn)

4. 機(jī)器學(xué)習(xí)所處的位置
①傳統(tǒng)編程:軟件工程師編寫程序來解決問題。首先存在一些數(shù)據(jù)→為了解決一個問題,軟件工程師編寫一個流程來告訴機(jī)器應(yīng)該怎樣做→計(jì)算機(jī)遵照這一流程執(zhí)行,然后得出結(jié)果
②統(tǒng)計(jì)學(xué):分析師比較變量之間的關(guān)系
③機(jī)器學(xué)習(xí):數(shù)據(jù)科學(xué)家使用訓(xùn)練數(shù)據(jù)集來教計(jì)算機(jī)應(yīng)該怎么做,然后系統(tǒng)執(zhí)行該任務(wù)。首先存在大數(shù)據(jù)→機(jī)器會學(xué)習(xí)使用訓(xùn)練數(shù)據(jù)集來進(jìn)行分類,調(diào)節(jié)特定的算法來實(shí)現(xiàn)目標(biāo)分類→該計(jì)算機(jī)可學(xué)習(xí)識別數(shù)據(jù)中的關(guān)系、趨勢和模式
④智能應(yīng)用:智能應(yīng)用使用人工智能所得到的結(jié)果,如圖是一個精準(zhǔn)農(nóng)業(yè)的應(yīng)用案例示意,該應(yīng)用基于無人機(jī)所收集到的數(shù)據(jù)

5. 機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用
機(jī)器學(xué)習(xí)有很多應(yīng)用場景,這里給出了一些示例,你會怎么使用它?
快速三維地圖測繪和建模:要建造一架鐵路橋,PwC 的數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)<覍C(jī)器學(xué)習(xí)應(yīng)用到了無人機(jī)收集到的數(shù)據(jù)上。這種組合實(shí)現(xiàn)了工作成功中的精準(zhǔn)監(jiān)控和快速反饋。 增強(qiáng)分析以降低風(fēng)險(xiǎn):為了檢測內(nèi)部交易,PwC 將機(jī)器學(xué)習(xí)和其它分析技術(shù)結(jié)合了起來,從而開發(fā)了更為全面的用戶概況,并且獲得了對復(fù)雜可疑行為的更深度了解。 預(yù)測表現(xiàn)最佳的目標(biāo):PwC 使用機(jī)器學(xué)習(xí)和其它分析方法來評估 Melbourne Cup 賽場上不同賽馬的潛力。


主導(dǎo)流派:符號主義 架構(gòu):服務(wù)器或大型機(jī) 主導(dǎo)理論:知識工程 基本決策邏輯:決策支持系統(tǒng),實(shí)用性有限
主導(dǎo)流派:貝葉斯 架構(gòu):小型服務(wù)器集群 主導(dǎo)理論:概率論 分類:可擴(kuò)展的比較或?qū)Ρ?,對許多任務(wù)都足夠好了
主導(dǎo)流派:聯(lián)結(jié)主義 架構(gòu):大型服務(wù)器農(nóng)場 主導(dǎo)理論:神經(jīng)科學(xué)和概率 識別:更加精準(zhǔn)的圖像和聲音識別、翻譯、情緒分析等

主導(dǎo)流派:聯(lián)結(jié)主義+符號主義 架構(gòu):許多云 主導(dǎo)理論:記憶神經(jīng)網(wǎng)絡(luò)、大規(guī)模集成、基于知識的推理 簡單的問答:范圍狹窄的、領(lǐng)域特定的知識共享
主導(dǎo)流派:聯(lián)結(jié)主義+符號主義+貝葉斯+…… 架構(gòu):云計(jì)算和霧計(jì)算 主導(dǎo)理論:感知的時候有網(wǎng)絡(luò),推理和工作的時候有規(guī)則 簡單感知、推理和行動:有限制的自動化或人機(jī)交互
主導(dǎo)流派:算法融合 架構(gòu):無處不在的服務(wù)器 主導(dǎo)理論:最佳組合的元學(xué)習(xí) 感知和響應(yīng):基于通過多種學(xué)習(xí)方式獲得的知識或經(jīng)驗(yàn)采取行動或做出回答

優(yōu)點(diǎn):擅長對人、地點(diǎn)、事物的一系列不同特征、品質(zhì)、特性進(jìn)行評估 場景舉例:基于規(guī)則的信用評估、賽馬結(jié)果預(yù)測

優(yōu)點(diǎn):支持向量機(jī)擅長在變量 X 與其它變量之間進(jìn)行二元分類操作,無論其關(guān)系是否是線性的 場景舉例:新聞分類、手寫識別。
優(yōu)點(diǎn):回歸可用于識別變量之間的連續(xù)關(guān)系,即便這個關(guān)系不是非常明顯 場景舉例:路面交通流量分析、郵件過濾

優(yōu)點(diǎn):對于在小數(shù)據(jù)集上有顯著特征的相關(guān)對象,樸素貝葉斯方法可對其進(jìn)行快速分類 場景舉例:情感分析、消費(fèi)者分類
優(yōu)點(diǎn):容許數(shù)據(jù)的變化性,適用于識別(recognition)和預(yù)測操作 場景舉例:面部表情分析、氣象預(yù)測

優(yōu)點(diǎn):隨機(jī)森林方法被證明對大規(guī)模數(shù)據(jù)集和存在大量且有時不相關(guān)特征的項(xiàng)(item)來說很有用 場景舉例:用戶流失分析、風(fēng)險(xiǎn)評估
優(yōu)點(diǎn):循環(huán)神經(jīng)網(wǎng)絡(luò)在存在大量有序信息時具有預(yù)測能力 場景舉例:圖像分類與字幕添加、政治情感分析

優(yōu)點(diǎn):長短期記憶和門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)具備與其它循環(huán)神經(jīng)網(wǎng)絡(luò)一樣的優(yōu)點(diǎn),但因?yàn)樗鼈冇懈玫挠洃浤芰?,所以更常被使?/span> 場景舉例:自然語言處理、翻譯
優(yōu)點(diǎn):當(dāng)存在非常大型的數(shù)據(jù)集、大量特征和復(fù)雜的分類任務(wù)時,卷積神經(jīng)網(wǎng)絡(luò)是非常有用的 場景舉例:圖像識別、文本轉(zhuǎn)語音、藥物發(fā)現(xiàn)
推薦閱讀
國產(chǎn)小眾瀏覽器因屏蔽視頻廣告,被索賠100萬(后續(xù))
年輕人“不講武德”:因看黃片上癮,把網(wǎng)站和786名女主播起訴了
關(guān)于程序員大白
程序員大白是一群哈工大,東北大學(xué),西湖大學(xué)和上海交通大學(xué)的碩士博士運(yùn)營維護(hù)的號,大家樂于分享高質(zhì)量文章,喜歡總結(jié)知識,歡迎關(guān)注[程序員大白],大家一起學(xué)習(xí)進(jìn)步!


