<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          終于有人把可解釋機(jī)器學(xué)習(xí)講明白了

          共 4245字,需瀏覽 9分鐘

           ·

          2022-01-09 15:00

          導(dǎo)讀:為了解決模型的“黑盒”問題,科學(xué)家們提出了可解釋機(jī)器學(xué)習(xí)。除了預(yù)測(cè)的精準(zhǔn)性之外,可解釋性也是機(jī)器學(xué)習(xí)模型是否值得信賴的重要衡量標(biāo)準(zhǔn)。


          可解釋機(jī)器學(xué)習(xí)(IML)的核心思想在于選擇模型時(shí),需要同時(shí)考慮模型的預(yù)測(cè)精度和可解釋性,并盡量找到二者之間的最佳平衡,它不像傳統(tǒng)黑盒模型僅考慮預(yù)測(cè)精度這一單項(xiàng)指標(biāo)(如低MSE或高AUC);它不僅能給出模型的預(yù)測(cè)值,還能給出得到該預(yù)測(cè)值的理由,進(jìn)而實(shí)現(xiàn)模型的安全、透明和公平等特性。

          作者:索信達(dá)控股 邵平 楊健穎 蘇思達(dá) 何悅 蘇鈺
          來源:大數(shù)據(jù)DT(ID:hzdashuju)



          在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)在提升產(chǎn)品銷售、輔助人類決策的過程中能夠起到很大的作用,但是計(jì)算機(jī)通常不會(huì)解釋它們的預(yù)測(cè)結(jié)果。

          我們?cè)谑褂脵C(jī)器學(xué)習(xí)模型時(shí),常用的模型性能評(píng)價(jià)指標(biāo)有精度、查準(zhǔn)率、查全率、ROC曲線、代價(jià)曲線等。如果一個(gè)機(jī)器學(xué)習(xí)模型表現(xiàn)得很好,我們是否就能信任這個(gè)模型而忽視決策的理由呢?答案是否定的。

          模型的高性能意味著模型足夠智能和“聰明”,但這不足以讓我們了解它的運(yùn)作原理,因此我們需要賦予模型“表達(dá)能力”,這樣我們才能更加理解和信任模型。除了單一的性能評(píng)價(jià)之外,模型的評(píng)價(jià)還應(yīng)該增加一個(gè)維度,以表示模型的“表達(dá)能力”,可解釋性就是其中一個(gè)。

          01 可解釋性的定義

          解釋指的是用通俗易懂的語言進(jìn)行分析闡明或呈現(xiàn)。對(duì)于模型來說,可解釋性指的是模型能用通俗易懂的語言進(jìn)行表達(dá),是一種能被人類理解的能力,具體地說就是,能夠?qū)⒛P偷念A(yù)測(cè)過程轉(zhuǎn)化成具備邏輯關(guān)系的規(guī)則的能力。

          可解釋性通常比較主觀,對(duì)于不同的人,解釋的程度也不一樣,很難用統(tǒng)一的指標(biāo)進(jìn)行度量。我們的目標(biāo)是希望機(jī)器學(xué)習(xí)模型能“像人類一樣表達(dá),像人類一樣思考”,如果模型的解釋符合我們的認(rèn)知和思維方式,能夠清晰地表達(dá)模型從輸入到輸出的預(yù)測(cè)過程,那么我們就會(huì)認(rèn)為模型的可解釋性是好的。

          在《機(jī)器學(xué)習(xí)的挑戰(zhàn):黑盒模型正面臨這3個(gè)問題》例舉的基金營銷小場(chǎng)景中,雖然模型能夠判斷一個(gè)客戶有很大的可能性購買低風(fēng)險(xiǎn)、低收益的產(chǎn)品,但是模型不能解釋客戶傾向于購買低風(fēng)險(xiǎn)、低收益產(chǎn)品的更詳細(xì)的原因,因此也就無法提出對(duì)這個(gè)客戶來說更有針對(duì)性的營銷策略,從而導(dǎo)致營銷的效果不佳。

          具備可解釋性的模型在做預(yù)測(cè)時(shí),除了給出推薦的產(chǎn)品之外,還要能給出推薦的理由。例如,模型會(huì)推薦一個(gè)低收益產(chǎn)品的原因是,該客戶剛大學(xué)畢業(yè),年紀(jì)還比較小,缺乏理財(cái)意識(shí),金融知識(shí)也比較薄弱,盡管個(gè)人賬戶中金額不少,但是盲目推薦購買高收益產(chǎn)品,可能會(huì)由于其風(fēng)險(xiǎn)意識(shí)不足而導(dǎo)致更多的損失,因此可以通過一些簡(jiǎn)單的低風(fēng)險(xiǎn)理財(cái)產(chǎn)品,讓客戶先體驗(yàn)一下金融市場(chǎng),培養(yǎng)客戶的理財(cái)興趣,過一段時(shí)間再購買高收益的產(chǎn)品。

          模型的可解釋性和模型的“表達(dá)能力”越強(qiáng),我們?cè)诶媚P徒Y(jié)果進(jìn)行決策時(shí)便能達(dá)到更好的營銷效果。


          02 可解釋性的分類

          可解釋機(jī)器學(xué)習(xí)的思想是在選擇模型時(shí),同時(shí)考慮模型的預(yù)測(cè)精度和可解釋性,并盡量找到二者之間的最佳平衡。根據(jù)不同的使用場(chǎng)景和使用人員,我們大致可以將模型的可解釋性作以下分類。

          1. 內(nèi)在可解釋VS.事后可解釋

          內(nèi)在可解釋(Intrinsic Interpretability)指的是模型自身結(jié)構(gòu)比較簡(jiǎn)單,使用者可以清晰地看到模型的內(nèi)部結(jié)構(gòu),模型的結(jié)果帶有解釋的效果,模型在設(shè)計(jì)的時(shí)候就已經(jīng)具備了可解釋性。

          如圖2-1所示,從決策樹的輸出結(jié)果中我們可以清楚地看到,兩個(gè)特征在不同取值的情況下,預(yù)測(cè)值存在差異。常見的內(nèi)在可解釋模型有邏輯回歸、深度較淺的決策樹模型(最多不超過4層)等。

          ▲圖2-1 決策樹結(jié)果

          事后可解釋(Post-hoc Interpretability)指的是模型訓(xùn)練完之后,使用一定的方法增強(qiáng)模型的可解釋性,挖掘模型學(xué)習(xí)到的信息。

          有的模型自身結(jié)構(gòu)比較復(fù)雜,使用者很難從模型內(nèi)部知道結(jié)果的推理過程,模型的結(jié)果也不帶有解釋的語言,通常只是給出預(yù)測(cè)值,這時(shí)候模型是不具備可解釋性的。事后可解釋是指在模型訓(xùn)練完之后,通過不同的事后解析方法提升模型的可解釋性。

          如圖2-2所示,利用事后解析的方法,可以對(duì)不同的模型識(shí)別結(jié)果給出不同的理由:根據(jù)吉他的琴頸識(shí)別出電吉他,根據(jù)琴箱識(shí)別出木吉他,根據(jù)頭部和腿部識(shí)別出拉布拉多。常用的事后解析方法有可視化、擾動(dòng)測(cè)試、代理模型等。

          ▲圖2-2 事后解釋:a. 原始圖片,b. 解釋為電吉他的原因,c. 解釋為木吉他的原因,d. 解釋為拉布拉多的原因(來源:論文“"Why Should I Trust You?"—Explaining the Predictions of Any Classifier”)

          2. 局部解釋VS.全局解釋

          對(duì)于模型使用者來說,不同場(chǎng)景對(duì)解釋的需求也有所不同。對(duì)于整個(gè)數(shù)據(jù)集而言,我們需要了解整體的預(yù)測(cè)情況;對(duì)于個(gè)體而言,我們需要了解特定個(gè)體中預(yù)測(cè)的差異情況。

          局部解釋指的是當(dāng)一個(gè)樣本或一組樣本的輸入值發(fā)生變化時(shí),解釋其預(yù)測(cè)結(jié)果會(huì)發(fā)生怎樣的變化。

          例如,在銀行風(fēng)控系統(tǒng)中,我們需要找到違規(guī)的客戶具備哪個(gè)或哪些特征,進(jìn)而按圖索驥,找到潛在的違規(guī)客戶;當(dāng)賬戶金額發(fā)生變化時(shí),違規(guī)的概率會(huì)如何變化;在拒絕了客戶的信用卡申請(qǐng)后,我們也可以根據(jù)模型的局部解釋,向這些客戶解釋拒絕的理由。

          圖2-2展示的既是事后解釋,也是一個(gè)局部解釋,是針對(duì)輸入的一張圖片作出的解釋。

          全局解釋指的是整個(gè)模型從輸入到輸出之間的解釋,從全局解釋中,我們可以得到普遍規(guī)律或統(tǒng)計(jì)推斷,理解每個(gè)特征對(duì)模型的影響。

          例如,吸煙與肺癌相關(guān),抽煙越多的人得肺癌的概率越高。全局解釋可以幫助我們理解基于特征的目標(biāo)分布,但一般很難獲得。

          人類能刻畫的空間不超過三維,一旦超過三維空間就會(huì)讓人感覺難以理解,我們很難用直觀的方式刻畫三維以上的聯(lián)合分布。因此一般的全局解釋都停留在三維以下,比如,加性模型(Additive Model)需要在保持其他特征不變的情況下,觀察單個(gè)特征與目標(biāo)變量的關(guān)系;樹模型則是將每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)的路徑解釋為產(chǎn)生葉節(jié)點(diǎn)結(jié)果的規(guī)則。

          3. 可解釋機(jī)器學(xué)習(xí)的研究方向

          可解釋機(jī)器學(xué)習(xí)為模型的評(píng)價(jià)指標(biāo)提供了新的角度,模型設(shè)計(jì)者在設(shè)計(jì)模型或優(yōu)化模型時(shí),應(yīng)該從精度解釋性兩個(gè)角度進(jìn)行考慮。

          圖2-3所示的是可解釋機(jī)器學(xué)習(xí)中模型精度和模型可解釋性的關(guān)系,由香港大學(xué)張愛軍教授提出,在學(xué)術(shù)界廣為流傳,圖2-3中的橫軸代表模型的可解釋性,越往正方向,代表模型的可解釋性越高;縱軸代表模型的精度,越往正方向,代表模型的精度越高。

          ▲圖2-3 可解釋機(jī)器學(xué)習(xí):模型精度和模型可解釋性的關(guān)系(圖片來源:?香港大學(xué)張愛軍博士)

          針對(duì)模型評(píng)價(jià)的兩個(gè)指標(biāo),可解釋機(jī)器學(xué)習(xí)有兩大研究方向,具體說明如下。

          第一,對(duì)于傳統(tǒng)的統(tǒng)計(jì)學(xué)模型(比如決策樹、邏輯回歸、線性回歸等),模型的可解釋性較強(qiáng),我們?cè)谑褂媚P蜁r(shí)可以清楚地看到模型的內(nèi)部結(jié)構(gòu),結(jié)果具有很高的可解釋性。

          然而一般情況下,這些模型的精度較低,在一些信噪比較高(信號(hào)強(qiáng)烈,噪聲較少)的領(lǐng)域,擬合效果沒有當(dāng)下的機(jī)器學(xué)習(xí)模型高。

          在保持模型的可解釋性前提下,我們可以適當(dāng)?shù)馗牧寄P偷慕Y(jié)構(gòu),通過增加模型的靈活表征能力,提高其精度,使得模型往縱軸正方向移動(dòng),形成內(nèi)在可解釋機(jī)器學(xué)習(xí)模型。比如,保持模型的加性性質(zhì),同時(shí)從線性擬合拓展到非線性擬合,GAMI-Net、EBM模型均屬于內(nèi)在可解釋機(jī)器學(xué)習(xí)模型。

          第二,當(dāng)下的機(jī)器學(xué)習(xí)模型(比如神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)),其內(nèi)部結(jié)構(gòu)十分復(fù)雜,我們難以通過逐層神經(jīng)網(wǎng)絡(luò)或逐個(gè)神經(jīng)元觀察數(shù)據(jù)的變化,在一些信噪比較低(信號(hào)較弱,噪聲強(qiáng))的領(lǐng)域,我們很容易把噪聲也擬合進(jìn)去,不易發(fā)現(xiàn)其中的錯(cuò)誤,模型的可解釋性較低。

          為了提高模型的可解釋性,我們可以采用以下兩種方法:

          1. 降低模型結(jié)構(gòu)的復(fù)雜度,如減少樹模型的深度,以犧牲模型的精度換取可解釋性;
          2. 保持模型原有的精度,在模型訓(xùn)練完之后,利用事后輔助的歸因解析方法及可視化工具,來獲得模型的可解釋性。

          無論采用哪一種方法,其目的都是讓模型往橫軸的正方向移動(dòng),獲取更多的可解釋性。LIME和SHAP等方法均屬于事后解析方法。

          可解釋機(jī)器學(xué)習(xí)的研究在學(xué)術(shù)界和工業(yè)界都引發(fā)了熱烈的反響,發(fā)表的文章和落地應(yīng)用逐年增長(zhǎng)。無論是哪一個(gè)研究方向,可解釋機(jī)器學(xué)習(xí)研究的最終目的都是:

          1. 在保證高水平學(xué)習(xí)表現(xiàn)的同時(shí),實(shí)現(xiàn)更具可解釋性的模型;
          2. 讓我們更理解、信任并有效地使用模型。

          關(guān)于作者:邵平,資深數(shù)據(jù)科學(xué)家,索信達(dá)控股金融AI實(shí)驗(yàn)室總監(jiān)。在大數(shù)據(jù)、人工智能領(lǐng)域有十多年技術(shù)研發(fā)和行業(yè)應(yīng)用經(jīng)驗(yàn)。技術(shù)方向涉及可解釋機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時(shí)間序列預(yù)測(cè)、智能推薦、自然語言處理等。現(xiàn)主要致力于可解釋機(jī)器學(xué)習(xí)、推薦系統(tǒng)、銀行智能營銷和智能風(fēng)控等領(lǐng)域的技術(shù)研究和項(xiàng)目實(shí)踐。
          楊健穎,云南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)碩士,高級(jí)數(shù)據(jù)挖掘工程師,一個(gè)對(duì)數(shù)據(jù)科學(xué)有堅(jiān)定信念的追求者,目前重點(diǎn)研究機(jī)器學(xué)習(xí)模型的可解釋性。
          蘇思達(dá),美國天普大學(xué)統(tǒng)計(jì)學(xué)碩士,機(jī)器學(xué)習(xí)算法專家,長(zhǎng)期為銀行提供大數(shù)據(jù)與人工智能解決方案和技術(shù)服務(wù)。主要研究方向?yàn)榭山忉寵C(jī)器學(xué)習(xí)與人工智能,曾撰寫《可解釋機(jī)器學(xué)習(xí)研究報(bào)告》和多篇可解釋機(jī)器學(xué)習(xí)相關(guān)文章。

          本文摘編自可解釋機(jī)器學(xué)習(xí):模型、方法與實(shí)踐》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111695714)

          (歡迎大家加入數(shù)據(jù)工匠知識(shí)星球獲取更多資訊。)

          聯(lián)系我們

          掃描二維碼關(guān)注我們

          微信:SZH9543
          郵箱:[email protected]
          QQ:2286075659

          熱門文章


          數(shù)字國企的五個(gè)階段及轉(zhuǎn)型路徑——《白皮書》(內(nèi)附下載鏈接)


          喬布斯56年極致人生的10個(gè)觀點(diǎn)


          數(shù)據(jù)文化在組織內(nèi)興起的四個(gè)信號(hào)


          【專家有約系列1】數(shù)字孿生是企業(yè)數(shù)字化轉(zhuǎn)型的內(nèi)核


          可信區(qū)塊鏈+數(shù)字政府應(yīng)用指南(建設(shè)規(guī)范、19類典型應(yīng)用場(chǎng)景)


          彭瑜:OT 與 IT 融合的典型案例

          我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識(shí)、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動(dòng)企業(yè)走進(jìn)大數(shù)據(jù)時(shí)代。

          我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺(tái)、數(shù)據(jù)治理生態(tài)圈。

          我們的價(jià)值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺(tái)、改變數(shù)據(jù)治理生態(tài)圈。

          了解更多精彩內(nèi)容


          長(zhǎng)按,識(shí)別二維碼,關(guān)注我們吧!

          數(shù)據(jù)工匠俱樂部

          微信號(hào):zgsjgjjlb

          專注數(shù)據(jù)治理,推動(dòng)大數(shù)據(jù)發(fā)展。

          瀏覽 146
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  夜色婷婷少妇丰满久久 | 成人精品A | 污片网站 | 在线观看欧美一区二区 | 麻豆精品视频 |