【機(jī)器學(xué)習(xí)】如何通俗易懂地闡述機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)是一個(gè)非常火爆的術(shù)語。本文以最通俗易懂的方式闡述了機(jī)器學(xué)習(xí)的基本原理及其應(yīng)用。

什么是機(jī)器學(xué)習(xí)?


機(jī)器學(xué)習(xí),顧名思義,一臺(tái)機(jī)器,正在學(xué)習(xí)一些東西。這是一個(gè)學(xué)習(xí)過程,從觀察輸入到特定機(jī)器的數(shù)據(jù)開始,機(jī)器在該數(shù)據(jù)中尋找特定模式,以便使用它做出決策。
它的核心目標(biāo)是讓機(jī)器/計(jì)算機(jī)僅通過使用某些算法來本能地學(xué)習(xí),而無需任何人工干預(yù)或幫助,并相應(yīng)地調(diào)整其方法以適應(yīng)模型。
簡(jiǎn)而言之,機(jī)器學(xué)習(xí)是對(duì)計(jì)算機(jī)算法的研究,它可以通過使用數(shù)據(jù)自動(dòng)改進(jìn)。
機(jī)器學(xué)習(xí)的先決條件
★?訓(xùn)練數(shù)據(jù)集
它是用于擬合用于訓(xùn)練數(shù)據(jù)集的模型的數(shù)據(jù)集。它幫助機(jī)器學(xué)習(xí)數(shù)據(jù)以及如何進(jìn)一步使用它。
★?驗(yàn)證數(shù)據(jù)集
它是用于對(duì)模型在訓(xùn)練數(shù)據(jù)集上的擬合度進(jìn)行無偏評(píng)估的數(shù)據(jù)樣本,同時(shí)調(diào)整模型超參數(shù)(其值用于控制學(xué)習(xí)過程的參數(shù)),它也被稱為開發(fā)集。
★?測(cè)試數(shù)據(jù)集
它是獨(dú)立于訓(xùn)練集的數(shù)據(jù)集,用于對(duì)訓(xùn)練數(shù)據(jù)集上的最終模型擬合提供無泄漏數(shù)據(jù)評(píng)估。
★?標(biāo)簽數(shù)據(jù)
標(biāo)簽數(shù)據(jù)是一組用一個(gè)或多個(gè)標(biāo)簽標(biāo)記過的數(shù)據(jù)樣本。
機(jī)器學(xué)習(xí)的方法
機(jī)器學(xué)習(xí)方法大致分為四類,如下所示:
☆?監(jiān)督學(xué)習(xí)
它是最常見和最容易使用的算法之一;機(jī)器使用標(biāo)記良好的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。
☆?無監(jiān)督學(xué)習(xí)
這是一種機(jī)器學(xué)習(xí)算法,其中模型使用未標(biāo)記的數(shù)據(jù)集進(jìn)行訓(xùn)練,并允許在沒有任何外部監(jiān)督的情況下對(duì)數(shù)據(jù)采取行動(dòng)。
☆?半監(jiān)督學(xué)習(xí)
它是一種機(jī)器學(xué)習(xí)算法,它由一小部分標(biāo)記數(shù)據(jù)和大部分未標(biāo)記數(shù)據(jù)組成,模型可以從中進(jìn)行所需的預(yù)測(cè)。
☆?強(qiáng)化學(xué)習(xí)
它是一種獨(dú)特的機(jī)器學(xué)習(xí)算法,它獎(jiǎng)勵(lì)期望的輸出并懲罰錯(cuò)誤,以訓(xùn)練機(jī)器。
實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的步驟
①?確定訓(xùn)練數(shù)據(jù)集的類型
檢查它是數(shù)值數(shù)據(jù)、分類數(shù)據(jù)、時(shí)間序列數(shù)據(jù)還是基于文本的數(shù)據(jù)。還要檢查存在多少因變量和自變量。
②?收集標(biāo)記的訓(xùn)練數(shù)據(jù)
確定目標(biāo)是什么以及特征是什么,以獲得識(shí)別模式并預(yù)測(cè)目標(biāo)數(shù)據(jù)。
③?拆分?jǐn)?shù)據(jù)集
根據(jù)需求將實(shí)體數(shù)據(jù)集拆分為兩個(gè)或三個(gè)部分——訓(xùn)練集、驗(yàn)證集和測(cè)試集。
④?確定訓(xùn)練數(shù)據(jù)集的輸入特征
理解給定數(shù)據(jù)集的特征。
⑤?確定訓(xùn)練數(shù)據(jù)集的合適算法
在了解需求后,我們需要為我們的數(shù)據(jù)集決定最合適的數(shù)據(jù)集——回歸/分類、聚類/關(guān)聯(lián)、決策樹等。
⑥?在訓(xùn)練數(shù)據(jù)集上執(zhí)行算法
在數(shù)據(jù)上應(yīng)用選定的算法來訓(xùn)練數(shù)據(jù)集。
⑦?評(píng)估模型的準(zhǔn)確性
通過提供測(cè)試數(shù)據(jù),可以了解和評(píng)估模型的準(zhǔn)確性。

監(jiān)督學(xué)習(xí)


定義:根據(jù)已有的數(shù)據(jù)集,知道輸入和輸出結(jié)果之間的關(guān)系。根據(jù)這種已知的關(guān)系,訓(xùn)練得到一個(gè)最優(yōu)的模型。
也就是說,在監(jiān)督學(xué)習(xí)中訓(xùn)練數(shù)據(jù)既有特征(feature)又有標(biāo)簽(label),通過訓(xùn)練,讓機(jī)器可以自己找到特征和標(biāo)簽之間的聯(lián)系,在面對(duì)只有特征沒有標(biāo)簽的數(shù)據(jù)時(shí),可以判斷出標(biāo)簽。
監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),其中機(jī)器使用標(biāo)記良好的數(shù)據(jù)進(jìn)行訓(xùn)練。它的主要目標(biāo)是找到一個(gè)映射函數(shù)來映射輸入變量和輸出變量。
監(jiān)督學(xué)習(xí)可以分為兩種 ——?單因素監(jiān)督學(xué)習(xí)和多元監(jiān)督學(xué)習(xí)。
◎?單變量監(jiān)督學(xué)習(xí)?由?一個(gè)因變量?和?一個(gè)自變量?組成。
◎?多元監(jiān)督學(xué)習(xí)?由?一個(gè)因變量?和?一個(gè)以上的自變量?組成。
監(jiān)督學(xué)習(xí)算法的類型
☆?回歸分析
回歸分析是一種統(tǒng)計(jì)方法,如果用于輸入變量和連續(xù)輸出變量之間存在關(guān)系,則使用該方法。回歸分析類型的算法有——線性回歸、回歸樹、非線性回歸、貝葉斯線性回歸、多項(xiàng)式回歸。
☆?分類分析
當(dāng)輸出變量是分類的時(shí)候使用分類方法;即只有限個(gè)解決方案。分類分析類型的算法有——邏輯回歸、支持向量機(jī)、K-最近鄰、SVM、樸素貝葉斯、決策樹分類、隨機(jī)森林分類。
監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)
◎ 監(jiān)督學(xué)習(xí)模型可以在使用訓(xùn)練集訓(xùn)練模型的基礎(chǔ)上預(yù)測(cè)輸出。
◎ 我們對(duì)正在使用的類別有一個(gè)明確的概念,因?yàn)樗鼈儽粯?biāo)記了。
◎ 它可以幫助我們解決現(xiàn)實(shí)世界中的問題。
監(jiān)督學(xué)習(xí)的缺點(diǎn)
◎ 它不適用于復(fù)雜的數(shù)據(jù)集。
◎ 如果測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)不同,則無法預(yù)測(cè)正確的輸出。
◎ 訓(xùn)練模型需要大量計(jì)算。
監(jiān)督學(xué)習(xí)在現(xiàn)實(shí)生活中的應(yīng)用
監(jiān)督學(xué)習(xí)在現(xiàn)實(shí)生活中的應(yīng)用非常多,如· 文本分類、垃圾郵件檢測(cè)、天氣預(yù)報(bào)、根據(jù)當(dāng)前市場(chǎng)價(jià)格預(yù)測(cè)房?jī)r(jià)、股票價(jià)格預(yù)測(cè)、人臉識(shí)別、簽名識(shí)別、客戶發(fā)現(xiàn)等待。
◎?圖像識(shí)別:圖像識(shí)別是監(jiān)督機(jī)器學(xué)習(xí)最重要的例子之一。它檢測(cè)圖像之間的模式并做出適當(dāng)?shù)念A(yù)測(cè)。這主要用于安全和醫(yī)療目的。
◎?語音識(shí)別:語音識(shí)別是可以將口語轉(zhuǎn)換為可讀文本的方法。最著名的語音助手,例如Siri、Alexa、天貓精靈、小愛同學(xué)等等,都使用此應(yīng)用程序。

無監(jiān)督學(xué)習(xí)


無監(jiān)督機(jī)器學(xué)習(xí)(Unsupervised Machine Learning)是一種機(jī)器學(xué)習(xí)技術(shù),它使用未標(biāo)記的數(shù)據(jù)集訓(xùn)練模型,并允許模型在該數(shù)據(jù)集上工作和行動(dòng),而不需要任何外部的人工干預(yù)或監(jiān)督。
無監(jiān)督學(xué)習(xí)對(duì)于從數(shù)據(jù)中找到有用的見解非常有幫助。這是非常熟悉的方式,人類學(xué)習(xí)通過自己的經(jīng)驗(yàn)來思考。即使輸入數(shù)據(jù)與輸出數(shù)據(jù)不一致,此方法也可以工作。
無監(jiān)督學(xué)習(xí)算法的類型
☆?聚類
聚類是將對(duì)象分組為簇的方法,其中最相似的對(duì)象保留在特定組中,而差異較大的則屬于另一組。
☆?關(guān)聯(lián)
關(guān)聯(lián)是在大型數(shù)據(jù)庫中查找變量之間關(guān)系的方法。我們開始了解一個(gè)變量如何直接或間接地與另一個(gè)變量相關(guān)聯(lián)。
不同類型的算法有?K-means、K近鄰、層次聚類分析、Anamoly 分析、神經(jīng)網(wǎng)絡(luò)、主成分分析、獨(dú)立成分分析?等。
無監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)
◎ 無監(jiān)督學(xué)習(xí)可用于解決復(fù)雜的任務(wù)。
◎ 有更大的自由來探索現(xiàn)有的數(shù)據(jù)。
無監(jiān)督學(xué)習(xí)的缺點(diǎn)
◎ 很難處理。
◎ 預(yù)測(cè)的準(zhǔn)確性可能更低。
無監(jiān)督學(xué)習(xí)的現(xiàn)實(shí)生活應(yīng)用
惡意軟件檢測(cè)、數(shù)據(jù)輸入過程中人為錯(cuò)誤識(shí)別、進(jìn)行準(zhǔn)確的購物籃分析、欺詐檢測(cè)等等
◎?客戶細(xì)分:根據(jù)客戶各種特征的將他們分成多個(gè)群。
◎?庫存管理:庫存管理是商店使用的應(yīng)用程序,可以通過關(guān)聯(lián)找到某些產(chǎn)品之間的聯(lián)系。

半監(jiān)督學(xué)習(xí)


半監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,其中使用一小部分標(biāo)記數(shù)據(jù)和大部分未標(biāo)記數(shù)據(jù)來訓(xùn)練模型。
半監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)
◎ 用于半監(jiān)督學(xué)習(xí)的算法本質(zhì)上是穩(wěn)定的。
◎ 它本質(zhì)上是高效的。
半監(jiān)督學(xué)習(xí)的缺點(diǎn)
◎ 準(zhǔn)確率可能不高。
◎ 迭代結(jié)果不是很穩(wěn)定。
半監(jiān)督學(xué)習(xí)在現(xiàn)實(shí)生活中的應(yīng)用
據(jù)報(bào)道,在工業(yè)界,支付寶的風(fēng)控與微信中掃一掃的識(shí)物,已利用半監(jiān)督學(xué)習(xí)節(jié)省人力,并提升識(shí)別效果。
◎?語音分析:音頻文件的標(biāo)記是一項(xiàng)非常密集的任務(wù),其中可能只標(biāo)記部分特征,并且需要大量人工干預(yù)。
◎?網(wǎng)頁內(nèi)容分類:在線內(nèi)容需要根據(jù)我們的搜索和關(guān)鍵字進(jìn)行分類。

強(qiáng)化學(xué)習(xí)


強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,它是按順序做出決策。輸出取決于當(dāng)前輸入的狀態(tài),下一個(gè)輸入取決于輸入預(yù)覽的輸出。做出的決定是完全依賴的,因此標(biāo)簽被賦予了依賴決定的序列。
強(qiáng)化學(xué)習(xí)被稱為機(jī)器學(xué)習(xí)中的半監(jiān)督學(xué)習(xí)模型,是一種允許代理采取行動(dòng)并與環(huán)境交互以最大化總獎(jiǎng)勵(lì)的技術(shù)
強(qiáng)化學(xué)習(xí)的類型
☆?正強(qiáng)化
正強(qiáng)化是指由于特定行為而發(fā)生的事件會(huì)增加該特定行為發(fā)生的頻率。它還可以最大限度地提高性能,并在很長(zhǎng)一段時(shí)間內(nèi)保持變化。
☆?負(fù)強(qiáng)化
負(fù)強(qiáng)化被定義為在避免負(fù)條件時(shí)模型行為的強(qiáng)化。它增加了行為,它還提供了對(duì)最低標(biāo)準(zhǔn)性能的顛覆。
強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn)
◎ 它可以用來解決非常復(fù)雜的問題。
◎ 它取得了長(zhǎng)期的成果。
強(qiáng)化學(xué)習(xí)的缺點(diǎn)
◎ 過度的強(qiáng)化學(xué)習(xí)會(huì)導(dǎo)致過載,從而減少結(jié)果。
◎ 它不是解決簡(jiǎn)單問題的首選。
強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)生活中的應(yīng)用
強(qiáng)化學(xué)習(xí)應(yīng)用于無人駕駛、金融貿(mào)易、醫(yī)療保健、工程、新聞推薦、廣告營(yíng)銷、機(jī)器人控制等等領(lǐng)域。
◎?股票預(yù)測(cè):股票預(yù)測(cè)需要強(qiáng)化學(xué)習(xí)來了解市場(chǎng)及其未來走勢(shì)。
◎?金融貿(mào)易:強(qiáng)化學(xué)習(xí)通過市場(chǎng)基準(zhǔn)標(biāo)準(zhǔn)對(duì)RL模型進(jìn)行評(píng)估,確保RL智能體正確做出持有、購買或是出售的決定,以保證最佳收益。
◎?自動(dòng)駕駛:有些自動(dòng)駕駛的任務(wù)可以與強(qiáng)化學(xué)習(xí)相結(jié)合,比如軌跡優(yōu)化,運(yùn)動(dòng)規(guī)劃,動(dòng)態(tài)路徑,最優(yōu)控制,以及高速路中的情景學(xué)習(xí)策略。
◎?游戲:我們玩的單人游戲需要我們的設(shè)備進(jìn)行下一步,而移動(dòng)將基于我們之前的移動(dòng)。國(guó)際象棋、Ludo、UNO 等需要強(qiáng)化學(xué)習(xí)。

寫在最后

至此我們了解機(jī)器學(xué)習(xí)算法和模型的基礎(chǔ)知識(shí),以及它們可以在現(xiàn)實(shí)世界中的哪些地方使用。
如果你有更好的想法,歡迎一起交流學(xué)習(xí)呀~
往期精彩回顧 本站qq群554839127,加入微信群請(qǐng)掃碼:
