<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          可解釋機(jī)器學(xué)習(xí)發(fā)展和常見方法!

          共 2358字,需瀏覽 5分鐘

           ·

          2020-12-01 18:14

          ↑↑↑關(guān)注后"星標(biāo)"Datawhale
          每日干貨?&?每月組隊學(xué)習(xí),不錯過
          ?Datawhale干貨?
          來源:新智元,編輯:數(shù)據(jù)派THU

          本文約2000字,建議閱讀5分鐘

          本文介紹IML領(lǐng)域的歷史,給出了最先進(jìn)的可解釋方法的概述,并討論了遇到的挑戰(zhàn)。
          近年來,可解釋機(jī)器學(xué)習(xí)(IML) 的相關(guān)研究蓬勃發(fā)展。盡管這個領(lǐng)域才剛剛起步,但是它在回歸建模和基于規(guī)則的機(jī)器學(xué)習(xí)方面的相關(guān)工作卻始于20世紀(jì)60年代。最近,arXiv上的一篇論文簡要介紹了解釋機(jī)器學(xué)習(xí)(IML)領(lǐng)域的歷史,給出了最先進(jìn)的可解釋方法的概述,并討論了遇到的挑戰(zhàn)。


          當(dāng)機(jī)器學(xué)習(xí)模型用在產(chǎn)品、決策或者研究過程中的時候,“可解釋性”通常是一個決定因素。

          ?

          可解釋機(jī)器學(xué)習(xí)(Interpretable machine learning ,簡稱 IML)可以用來來發(fā)現(xiàn)知識,調(diào)試、證明模型及其預(yù)測,以及控制和改進(jìn)模型。

          ?

          研究人員認(rèn)為 IML的發(fā)展在某些情況下可以認(rèn)為已經(jīng)步入了一個新的階段,但仍然存在一些挑戰(zhàn)。

          ?


          可解釋機(jī)器學(xué)習(xí)(IML)簡史

          最近幾年有很多關(guān)于可解釋機(jī)器學(xué)習(xí)的相關(guān)研究, 但是從數(shù)據(jù)中學(xué)習(xí)可解釋模型的歷史由來已久。
          ?
          線性回歸早在19世紀(jì)初就已經(jīng)被使用,從那以后又發(fā)展成各種各樣的回歸分析工具,例如,廣義相加模型(generalized additive models)和彈性網(wǎng)絡(luò)(elastic net)等。
          ?
          這些統(tǒng)計模型背后的哲學(xué)意義通常是做出某些分布假設(shè)或限制模型的復(fù)雜性,并因此強(qiáng)加模型的內(nèi)在可解釋性。
          ?

          而在機(jī)器學(xué)習(xí)中,使用的建模方法略有不同。?

          機(jī)器學(xué)習(xí)算法通常遵循非線性,非參數(shù)方法,而不是預(yù)先限制模型的復(fù)雜性,在該方法中,模型的復(fù)雜性通過一個或多個超參數(shù)進(jìn)行控制,并通過交叉驗(yàn)證進(jìn)行選擇。這種靈活性通常會導(dǎo)致難以解釋的模型具有良好的預(yù)測性能。
          ?
          雖然機(jī)器學(xué)習(xí)算法通常側(cè)重于預(yù)測的性能,但關(guān)于機(jī)器學(xué)習(xí)的可解釋性的工作已經(jīng)存在了很多年。隨機(jī)森林中內(nèi)置的特征重要性度量是可解釋機(jī)器學(xué)習(xí)的重要里程碑之一。
          ? ? ? ??? ? ? ?
          深度學(xué)習(xí)在經(jīng)歷了很長時間的發(fā)展后,終于在2010年的ImageNet中獲勝。
          ?
          從那以后的幾年,根據(jù)Google上“可解釋性機(jī)器學(xué)習(xí)”和“可解釋的AI”這兩個搜索詞的出現(xiàn)頻率,可以大概得出IML領(lǐng)域在2015年才真正起飛。
          ? ? ? ??? ? ? ?
          IML中的常見方法

          通常會通過分析模型組件,模型敏感性或替代模型來區(qū)分IML方法。
          ? ? ? ??? ? ? ?
          分析可解釋模型的成分
          ?
          為了分析模型的組成部分,需要將其分解為可以單獨(dú)解釋的部分。但是,并不一定需要用戶完全了解該模型。
          ? ? ? ??? ? ? ?

          通常可解釋模型是具有可學(xué)習(xí)的結(jié)構(gòu)和參數(shù)的模型,可以為其分配特定的解釋。在這種情況下,線性回歸模型,決策樹和決策規(guī)則被認(rèn)為是可解釋的。
          ?
          線性回歸模型可以通過分析組件來解釋:模型結(jié)構(gòu)(特征的加權(quán)求和)允許將權(quán)重解釋為特征對預(yù)測的影響。
          ?
          分析更復(fù)雜模型的成分
          ?
          研究人員還會分析更復(fù)雜的黑盒模型的組成部分。例如,可以通過查找或生成激活的CNN特征圖的圖像來可視化卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)的抽象特征。
          ?
          對于隨機(jī)森林,通過樹的最小深度分布和基尼系數(shù)來分析隨機(jī)森林中的樹,可以用來量化特征的重要性。


          模型成分分析是一個不錯的工具,但是它的缺點(diǎn)是與特定的模型相關(guān), 而且它不能與常用的模型選擇方法很好地結(jié)合,通常是通過機(jī)器學(xué)習(xí)搜索很多不同的ML模型進(jìn)行交叉驗(yàn)證。
          ?
          IML發(fā)展中遇到的挑戰(zhàn)

          統(tǒng)計不確定性
          ?
          許多 IML 方法,例如:特征重要度的排列組合等,在不量化解釋不確定性的情況下提供了解釋。

          模型本身以及其解釋都是根據(jù)數(shù)據(jù)計算的,因此存在不確定性。目前研究正在努力量化解釋的不確定性,例如對于特征重要性的逐層分析相關(guān)性等。
          ?
          因果解釋
          ?
          理想情況下,模型應(yīng)反映其潛在現(xiàn)象的真實(shí)因果結(jié)構(gòu),以進(jìn)行因果解釋。如果在科學(xué)中使用IML,則因果解釋通常是建模的目標(biāo)。
          ?
          但是大多數(shù)統(tǒng)計學(xué)習(xí)程序僅反映特征之間的相關(guān)結(jié)構(gòu)并分析數(shù)據(jù)的生成過程,而不是其真正的固有結(jié)構(gòu)。這樣的因果結(jié)構(gòu)也將使模型更強(qiáng)大地對抗攻擊,并且在用作決策依據(jù)時更有用。


          不幸的是,預(yù)測性能和因果關(guān)系可能是一種相互矛盾的目標(biāo)。
          ?
          例如,今天的天氣直接導(dǎo)致明天的天氣,但是我們可能只能使用“濕滑的地面”這個信息,在預(yù)測模型中使用“濕滑的地面”來表示明天的天氣很有用,因?yàn)樗薪裉斓奶鞖獾男畔?,但由于ML模型中缺少了今天的天氣信息,因此不能對其進(jìn)行因果解釋。
          ?
          特征依賴
          ?
          特征之間的依賴引入了歸因和外推問題。例如,當(dāng)特征之間相互關(guān)聯(lián)并共享信息時,特征的重要性和作用就變得難以區(qū)分。
          ?
          隨機(jī)森林中的相關(guān)特征具有較高的重要性,許多基于靈敏度分析的方法會置換特征,當(dāng)置換后的特征與另一特征具有某種依賴性時,此關(guān)聯(lián)將斷開,并且所得數(shù)據(jù)點(diǎn)將外推到分布之外的區(qū)域。
          ? ? ? ?? ? ? ?

          ML模型從未在這類組合數(shù)據(jù)上進(jìn)行過訓(xùn)練,并且可能不會在應(yīng)用程序中遇到類似的數(shù)據(jù)點(diǎn)。因此,外推可能會引起誤解。
          ?
          如何向具有不同知識和背景的個人解釋預(yù)測結(jié)果,以及滿足有關(guān)機(jī)構(gòu)或社會層面的可解釋性的需求可能是IML今后的目標(biāo)。

          它涵蓋了更廣泛的領(lǐng)域,例如人機(jī)交互,心理學(xué)和社會學(xué)等。為了解決未來的挑戰(zhàn),作者認(rèn)為可解釋機(jī)器學(xué)習(xí)領(lǐng)域必須橫向延伸到其他領(lǐng)域,并在統(tǒng)計和計算機(jī)科學(xué)方面縱向延伸。
          ?
          參考鏈接:

          https://arxiv.org/abs/2010.09337


          “干貨學(xué)習(xí),點(diǎn)三連
          瀏覽 92
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费无码婬片A片AA片 | 99爱视频在线 | 欧美第一页福利 | 天天综合网天天色 | 亚洲第九页 |