吐血整理:關(guān)于機器學(xué)習(xí)不可不知的15個概念
導(dǎo)讀:本文介紹不同類型的機器學(xué)習(xí)方法,以及模型評估的相關(guān)概念。

01 有監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí)是利用訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)測的機器學(xué)習(xí)任務(wù)。有監(jiān)督學(xué)習(xí)可以分為分類和回歸?;貧w用于預(yù)測“價格”“溫度”或“距離”等連續(xù)值,而分類用于預(yù)測“是”或“否”、“垃圾郵件”或“非垃圾郵件”、“惡性”或“良性”等類別。
分類包含三種類型的分類任務(wù):二元分類、多類別分類和多標(biāo)簽分類?;貧w中包含線性回歸和生存回歸。
02 無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)是一種機器學(xué)習(xí)任務(wù),它在不需要標(biāo)記響應(yīng)的情況下發(fā)現(xiàn)數(shù)據(jù)集中隱藏的模式和結(jié)構(gòu)。當(dāng)你只能訪問輸入數(shù)據(jù),而訓(xùn)練數(shù)據(jù)不可用或難以獲取時,無監(jiān)督學(xué)習(xí)是理想的選擇。常用的方法包括聚類、主題建模、異常檢測、推薦和主成分分析。
03 半監(jiān)督學(xué)習(xí)
在某些情況下,獲取標(biāo)記數(shù)據(jù)是昂貴且耗時的。在響應(yīng)標(biāo)記很少的情況下,半監(jiān)督學(xué)習(xí)結(jié)合有監(jiān)督和無監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行預(yù)測。在半監(jiān)督學(xué)習(xí)中,利用未標(biāo)記數(shù)據(jù)對標(biāo)記數(shù)據(jù)進(jìn)行擴充以提高模型準(zhǔn)確率。
04 強化學(xué)習(xí)
強化學(xué)習(xí)試圖通過不斷從嘗試的過程和錯誤的結(jié)果來進(jìn)行學(xué)習(xí),確定哪種行為能帶來最大的回報。強化學(xué)習(xí)有三個組成部分:智能體(決策者或?qū)W習(xí)者)、環(huán)境(智能體與之交互的內(nèi)容)和行為(智能體可以執(zhí)行的內(nèi)容)。這類學(xué)習(xí)通常用于游戲、導(dǎo)航和機器人技術(shù)。
05 深度學(xué)習(xí)
深度學(xué)習(xí)是機器學(xué)習(xí)和人工智能的一個分支,它使用深度的、多層的人工神經(jīng)網(wǎng)絡(luò)。最近人工智能領(lǐng)域的許多突破都?xì)w功于深度學(xué)習(xí)。

06 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一類類似于人腦中相互連接的神經(jīng)元的算法。一個神經(jīng)網(wǎng)絡(luò)包含多層結(jié)構(gòu),每一層由相互連接的節(jié)點組成。通常有一個輸入層、一個或多個隱藏層和一個輸出層。
07 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(convnet或CNN)是一種特別擅長分析圖的神經(jīng)網(wǎng)絡(luò)(盡管它們也可以應(yīng)用于音頻和文本數(shù)據(jù))。卷積神經(jīng)網(wǎng)絡(luò)各層中的神經(jīng)元按高度、寬度和深度三個維度排列。我將在第7章更詳細(xì)地介紹深度學(xué)習(xí)和深度卷積神經(jīng)網(wǎng)絡(luò)。
08 模型評估
在分類中,每個數(shù)據(jù)點都有一個已知的標(biāo)簽和一個模型生成的預(yù)測類別。通過比較已知的標(biāo)簽和預(yù)測類別為每個數(shù)據(jù)點進(jìn)行劃分,結(jié)果可以分為四個類別:
真陽性(TP),預(yù)測類別和標(biāo)簽均為陽性;
真陰性(TN),預(yù)測類別和標(biāo)簽均為陰性;
假陽性(FP),預(yù)測類別為陽性但標(biāo)簽為陰性;
假陰性(FN),預(yù)測類別為陰性但標(biāo)簽為陽性。
這四個值構(gòu)成了大多數(shù)分類任務(wù)評估指標(biāo)的基礎(chǔ)。它們通常在一個叫作混淆矩陣的表格中呈現(xiàn)(如表1-1)。
▼表1-1 混淆矩陣

09 準(zhǔn)確率
準(zhǔn)確率是分類模型的一個評估指標(biāo)。它定義為正確預(yù)測數(shù)除以預(yù)測總數(shù)。

在數(shù)據(jù)集不平衡的情況下,準(zhǔn)確率不是理想的指標(biāo)。舉例說明,假設(shè)一個分類任務(wù)有90個陰性和10個陽性樣本;將所有樣本分類為陰性會得到0.90的準(zhǔn)確率分?jǐn)?shù)。精度和召回率是評估用例不平衡數(shù)據(jù)的訓(xùn)練模型的較好指標(biāo)。
10 精度
精度定義為真陽性數(shù)除以真陽性數(shù)加上假陽性數(shù)的和。精度表明當(dāng)模型的預(yù)測為陽性時,模型正確的概率。例如,如果你的模型預(yù)測了100個癌癥的發(fā)生,但是其中10個是錯誤的預(yù)測,那么你的模型的精度是90%。在假陽性較高的情況下,精度是一個很好的指標(biāo)。

11 召回率
召回率是一個很好的指標(biāo),可用于假陰性較高的情況。召回率的定義是真陽性數(shù)除以真陽性數(shù)加上假陰性數(shù)的和。

12 F1度量
F1度量或F1分?jǐn)?shù)是精度和召回率的調(diào)和平均值或加權(quán)平均值。它是評估多類別分類器的常用性能指標(biāo)。在類別分布不均的情況下,這也是一個很好的度量。最好的F1分?jǐn)?shù)是1,而最差的分?jǐn)?shù)是0。一個好的F1度量意味著你有較低的假陰性和較低的假陽性。F1度量定義如下:

13 AUROC
接收者操作特征曲線下面積(AUROC)是評估二元分類器性能的常用指標(biāo)。接收者操作特征曲線(ROC)是依據(jù)真陽性率與假陽性率繪制的圖。曲線下面積(AUC)是ROC曲線下的面積。
在對隨機陽性樣本和隨機陰性樣本進(jìn)行預(yù)測時,將陽性樣本預(yù)測為陽性的概率假設(shè)為P0,將陰性樣本預(yù)測為陽性的概率假設(shè)為P1,AUC就是P0大于P1的概率。曲線下的面積越大(AUROC越接近1.0),模型的性能越好。AUROC為0.5的模型是無用的,因為它的預(yù)測準(zhǔn)確率和隨機猜測的準(zhǔn)確率一樣。

14 過擬合與欠擬合
模型性能差是由過擬合或欠擬合引起的。
過擬合是指一個模型太適合訓(xùn)練數(shù)據(jù)。過擬合的模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在新的、看不見的數(shù)據(jù)上表現(xiàn)較差。
過擬合的反面是欠擬合。由于擬合不足,模型過于簡單,沒有學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中的相關(guān)模式,這可能是因為模型被過度規(guī)范化或需要更長時間的訓(xùn)練。
模型能夠很好地適應(yīng)新的、看不見的數(shù)據(jù),這種能力被稱為泛化。這是每個模型優(yōu)化練習(xí)的目標(biāo)。
防止過擬合的幾種方法包括使用更多的數(shù)據(jù)或特征子集、交叉驗證、刪除、修剪、提前停止和正則化。對于深度學(xué)習(xí),數(shù)據(jù)增強是一種常見的正則化形式。
為了減少欠擬合,建議選擇添加更多相關(guān)的特征。對于深度學(xué)習(xí),考慮在一個層中添加更多的節(jié)點或在神經(jīng)網(wǎng)絡(luò)中添加更多的層,以增加模型的容量。
15 模型選擇
模型選擇包括評估擬合的機器學(xué)習(xí)模型,并嘗試用用戶指定的超參數(shù)組合來擬合底層估計器,再輸出最佳模型。通過使用Spark MLlib,模型選擇由CrossValidator和TrainValidationSplit估計器執(zhí)行。
CrossValidator對超參數(shù)調(diào)整和模型選擇執(zhí)行k-fold交叉驗證和網(wǎng)格搜索。它將數(shù)據(jù)集分割成一組隨機的、不重疊的分區(qū),作為訓(xùn)練和測試數(shù)據(jù)集。例如,如果k=3,k-fold交叉驗證將生成3對訓(xùn)練和測試數(shù)據(jù)集(每一對僅用作一次測試數(shù)據(jù)集),其中每一對使用2/3作為訓(xùn)練數(shù)據(jù),1/3用于測試。
TrainValidationSplit是用于超參數(shù)組合的另一種估計器。與k-fold交叉驗證(這是一個昂貴的操作)相反,TrainValidationSplit只對每個參數(shù)組合求值一次,而不是k次。

也可以加一下老胡的微信 圍觀朋友圈~~~
推薦閱讀
(點擊標(biāo)題可跳轉(zhuǎn)閱讀)
深度學(xué)習(xí)的四個學(xué)習(xí)階段!
2021年,機器學(xué)習(xí)研究風(fēng)向要變了?
老鐵,三連支持一下,好嗎?↓↓↓
