<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          吐血整理:關(guān)于機(jī)器學(xué)習(xí)不可不知的15個概念

          共 5358字,需瀏覽 11分鐘

           ·

          2021-06-15 20:23

          導(dǎo)讀:本文介紹不同類型的機(jī)器學(xué)習(xí)方法,以及模型評估的相關(guān)概念。


          作者:布奇·昆托(Butch Quinto)
          來源:大數(shù)據(jù)DT(ID:hzdashuju)





          01 有監(jiān)督學(xué)習(xí)


          有監(jiān)督學(xué)習(xí)是利用訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)測的機(jī)器學(xué)習(xí)任務(wù)。有監(jiān)督學(xué)習(xí)可以分為分類回歸?;貧w用于預(yù)測“價格”“溫度”或“距離”等連續(xù)值,而分類用于預(yù)測“是”或“否”、“垃圾郵件”或“非垃圾郵件”、“惡性”或“良性”等類別。


          分類包含三種類型的分類任務(wù):二元分類、多類別分類多標(biāo)簽分類。回歸中包含線性回歸和生存回歸。



          02 無監(jiān)督學(xué)習(xí)


          無監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)任務(wù),它在不需要標(biāo)記響應(yīng)的情況下發(fā)現(xiàn)數(shù)據(jù)集中隱藏的模式和結(jié)構(gòu)。當(dāng)你只能訪問輸入數(shù)據(jù),而訓(xùn)練數(shù)據(jù)不可用或難以獲取時,無監(jiān)督學(xué)習(xí)是理想的選擇。常用的方法包括聚類、主題建模、異常檢測、推薦和主成分分析。



          03 半監(jiān)督學(xué)習(xí)


          在某些情況下,獲取標(biāo)記數(shù)據(jù)是昂貴且耗時的。在響應(yīng)標(biāo)記很少的情況下,半監(jiān)督學(xué)習(xí)結(jié)合有監(jiān)督和無監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行預(yù)測。在半監(jiān)督學(xué)習(xí)中,利用未標(biāo)記數(shù)據(jù)對標(biāo)記數(shù)據(jù)進(jìn)行擴(kuò)充以提高模型準(zhǔn)確率。



          04 強(qiáng)化學(xué)習(xí)


          強(qiáng)化學(xué)習(xí)試圖通過不斷從嘗試的過程和錯誤的結(jié)果來進(jìn)行學(xué)習(xí),確定哪種行為能帶來最大的回報。強(qiáng)化學(xué)習(xí)有三個組成部分:智能體(決策者或?qū)W習(xí)者)、環(huán)境(智能體與之交互的內(nèi)容)和行為(智能體可以執(zhí)行的內(nèi)容)。這類學(xué)習(xí)通常用于游戲、導(dǎo)航和機(jī)器人技術(shù)。



          05 深度學(xué)習(xí)


          深度學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能的一個分支,它使用深度的、多層的人工神經(jīng)網(wǎng)絡(luò)。最近人工智能領(lǐng)域的許多突破都?xì)w功于深度學(xué)習(xí)。




          06 神經(jīng)網(wǎng)絡(luò)


          神經(jīng)網(wǎng)絡(luò)是一類類似于人腦中相互連接的神經(jīng)元的算法。一個神經(jīng)網(wǎng)絡(luò)包含多層結(jié)構(gòu),每一層由相互連接的節(jié)點(diǎn)組成。通常有一個輸入層、一個或多個隱藏層和一個輸出層。



          07 卷積神經(jīng)網(wǎng)絡(luò)


          卷積神經(jīng)網(wǎng)絡(luò)(convnet或CNN)是一種特別擅長分析圖的神經(jīng)網(wǎng)絡(luò)(盡管它們也可以應(yīng)用于音頻和文本數(shù)據(jù))。卷積神經(jīng)網(wǎng)絡(luò)各層中的神經(jīng)元按高度、寬度和深度三個維度排列。我將在第7章更詳細(xì)地介紹深度學(xué)習(xí)和深度卷積神經(jīng)網(wǎng)絡(luò)。



          08 模型評估


          在分類中,每個數(shù)據(jù)點(diǎn)都有一個已知的標(biāo)簽和一個模型生成的預(yù)測類別。通過比較已知的標(biāo)簽和預(yù)測類別為每個數(shù)據(jù)點(diǎn)進(jìn)行劃分,結(jié)果可以分為四個類別:


          • 真陽性(TP),預(yù)測類別和標(biāo)簽均為陽性;

          • 真陰性(TN),預(yù)測類別和標(biāo)簽均為陰性;

          • 假陽性(FP),預(yù)測類別為陽性但標(biāo)簽為陰性;

          • 假陰性(FN),預(yù)測類別為陰性但標(biāo)簽為陽性。


          這四個值構(gòu)成了大多數(shù)分類任務(wù)評估指標(biāo)的基礎(chǔ)。它們通常在一個叫作混淆矩陣的表格中呈現(xiàn)(如表1-1)。


          ▼表1-1 混淆矩陣



          09 準(zhǔn)確率


          準(zhǔn)確率是分類模型的一個評估指標(biāo)。它定義為正確預(yù)測數(shù)除以預(yù)測總數(shù)。



          在數(shù)據(jù)集不平衡的情況下,準(zhǔn)確率不是理想的指標(biāo)。舉例說明,假設(shè)一個分類任務(wù)有90個陰性和10個陽性樣本;將所有樣本分類為陰性會得到0.90的準(zhǔn)確率分?jǐn)?shù)。精度和召回率是評估用例不平衡數(shù)據(jù)的訓(xùn)練模型的較好指標(biāo)。



          10 精度


          精度定義為真陽性數(shù)除以真陽性數(shù)加上假陽性數(shù)的和。精度表明當(dāng)模型的預(yù)測為陽性時,模型正確的概率。例如,如果你的模型預(yù)測了100個癌癥的發(fā)生,但是其中10個是錯誤的預(yù)測,那么你的模型的精度是90%。在假陽性較高的情況下,精度是一個很好的指標(biāo)。




          11 召回率


          召回率是一個很好的指標(biāo),可用于假陰性較高的情況。召回率的定義是真陽性數(shù)除以真陽性數(shù)加上假陰性數(shù)的和。




          12 F1度量


          F1度量或F1分?jǐn)?shù)是精度和召回率的調(diào)和平均值或加權(quán)平均值。它是評估多類別分類器的常用性能指標(biāo)。在類別分布不均的情況下,這也是一個很好的度量。最好的F1分?jǐn)?shù)是1,而最差的分?jǐn)?shù)是0。一個好的F1度量意味著你有較低的假陰性和較低的假陽性。F1度量定義如下:




          13 AUROC


          接收者操作特征曲線下面積(AUROC)是評估二元分類器性能的常用指標(biāo)。接收者操作特征曲線(ROC)是依據(jù)真陽性率與假陽性率繪制的圖。曲線下面積(AUC)是ROC曲線下的面積。


          在對隨機(jī)陽性樣本和隨機(jī)陰性樣本進(jìn)行預(yù)測時,將陽性樣本預(yù)測為陽性的概率假設(shè)為P0,將陰性樣本預(yù)測為陽性的概率假設(shè)為P1,AUC就是P0大于P1的概率。曲線下的面積越大(AUROC越接近1.0),模型的性能越好。AUROC為0.5的模型是無用的,因?yàn)樗念A(yù)測準(zhǔn)確率和隨機(jī)猜測的準(zhǔn)確率一樣。




          14 過擬合與欠擬合


          模型性能差是由過擬合或欠擬合引起的。


          過擬合是指一個模型太適合訓(xùn)練數(shù)據(jù)。過擬合的模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在新的、看不見的數(shù)據(jù)上表現(xiàn)較差。


          過擬合的反面是欠擬合。由于擬合不足,模型過于簡單,沒有學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中的相關(guān)模式,這可能是因?yàn)槟P捅贿^度規(guī)范化或需要更長時間的訓(xùn)練。


          模型能夠很好地適應(yīng)新的、看不見的數(shù)據(jù),這種能力被稱為泛化。這是每個模型優(yōu)化練習(xí)的目標(biāo)。


          防止過擬合的幾種方法包括使用更多的數(shù)據(jù)或特征子集、交叉驗(yàn)證、刪除、修剪、提前停止和正則化。對于深度學(xué)習(xí),數(shù)據(jù)增強(qiáng)是一種常見的正則化形式。


          為了減少欠擬合,建議選擇添加更多相關(guān)的特征。對于深度學(xué)習(xí),考慮在一個層中添加更多的節(jié)點(diǎn)或在神經(jīng)網(wǎng)絡(luò)中添加更多的層,以增加模型的容量。



          15 模型選擇


          模型選擇包括評估擬合的機(jī)器學(xué)習(xí)模型,并嘗試用用戶指定的超參數(shù)組合來擬合底層估計(jì)器,再輸出最佳模型。通過使用Spark MLlib,模型選擇由CrossValidator和TrainValidationSplit估計(jì)器執(zhí)行。


          CrossValidator對超參數(shù)調(diào)整和模型選擇執(zhí)行k-fold交叉驗(yàn)證和網(wǎng)格搜索。它將數(shù)據(jù)集分割成一組隨機(jī)的、不重疊的分區(qū),作為訓(xùn)練和測試數(shù)據(jù)集。例如,如果k=3,k-fold交叉驗(yàn)證將生成3對訓(xùn)練和測試數(shù)據(jù)集(每一對僅用作一次測試數(shù)據(jù)集),其中每一對使用2/3作為訓(xùn)練數(shù)據(jù),1/3用于測試。


          TrainValidationSplit是用于超參數(shù)組合的另一種估計(jì)器。與k-fold交叉驗(yàn)證(這是一個昂貴的操作)相反,TrainValidationSplit只對每個參數(shù)組合求值一次,而不是k次。


          關(guān)于作者:布奇·昆托(Butch Quinto),在銀行與金融、電信、政府部門、公共事業(yè)、交通運(yùn)輸、電子商務(wù)、零售業(yè)、制造業(yè)和生物信息學(xué)等多個行業(yè)擁有20多年的技術(shù)和領(lǐng)導(dǎo)經(jīng)驗(yàn)。他是Next-Generation Big Data(Apress,2018)的作者,也是人工智能促進(jìn)協(xié)會(AAAI)和美國科學(xué)促進(jìn)會(AAAS)的成員。

          本文摘編自基于Spark的下一代機(jī)器學(xué)習(xí)》,經(jīng)出版方授權(quán)發(fā)布。

          延伸閱讀基于Spark的下一代機(jī)器學(xué)習(xí)
          點(diǎn)擊上圖了解及購買
          轉(zhuǎn)載請聯(lián)系微信:DoctorData

          推薦語:本書先簡單介紹了Spark和Spark MLlib,然后介紹標(biāo)準(zhǔn)Spark MLlib庫之外的更強(qiáng)大的第三方機(jī)器學(xué)習(xí)算法和庫。通過閱讀本書,你將能夠通過幾十個實(shí)際的例子和深刻的解釋,將所學(xué)到的知識應(yīng)用到真實(shí)世界的用例。


          劃重點(diǎn)??


          干貨直達(dá)??


          更多精彩??

          在公眾號對話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          PPT | 讀書 | 書單 | 硬核 | 干貨 | 講明白 | 神操作
          大數(shù)據(jù) | 云計(jì)算 | 數(shù)據(jù)庫 | Python | 爬蟲 | 可視化
          AI | 人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | NLP
          5G | 中臺 | 用戶畫像 1024 | 數(shù)學(xué) | 算法 數(shù)字孿生

          據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個公眾號
          ??
          瀏覽 17
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产一级A片视频 | 欧美大鸡巴在线 | 国产麻豆 | 欧美成人精品在线观看 | 成人黄色在线免费观看 |