<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          可交互的 Attention 可視化工具!我的Transformer可解釋性有救了?

          共 1993字,需瀏覽 4分鐘

           ·

          2021-05-11 01:56

          文 | Sherry

          轉自 | 夕小瑤的賣萌屋

          視覺是人和動物最重要的感覺,至少有80%以上的外界信息是經過視覺獲得的。我們看論文的時候,通過圖表來確定文章的大致內容往往也是一個更高效的 說到深度神經網絡的可視化,最經典的莫過于的CNN密恐圖了:

          這種可視化方法可以讓我們清晰的知道每一層的每一個Cell關注何種信息,模型最后是如何逐層迭代處理得到最后的判斷。但是對NLP而言,文字并不容易轉換成這樣直觀的視覺表示。對Transformer而言,理解注意力機制是最為關鍵的一步。比較常見的一種注意力可視化是用灰度圖表示不同token之間的注意力權重:但這種可視化的一大缺點是,每張圖只能表示一個注意力頭,我們很難獲得一個更直接的全局感受。

          喬治亞理工最近提出了DODRIO,一種可交互的Attention可視化工具,從句法和寓意層面總結了不同注意力頭的信息。Transformer的可解釋性終于有救啦?

          趕緊試試他們的Demo吧:
          https://poloclub.github.io/dodrio/

          論文題目:
          DODRIO: Exploring Transformer Models with Interactive Visualization

          論文鏈接:
          http://arxiv-download.xixiaoyao.cn/pdf/2103.14625.pdf

          Github:
          https://poloclub.github.io/dodrio/

          注意力頭概覽

          在概覽圖中,我們可以看到不同層的不同注意力頭都化身成了大小,深淺不一的圓點。本文計算了幾種分數(shù)并用顏色、深淺、大小來表示。

          第一個是語義得分m:它是從注意力向量和顯著性得分的cosine相似度得到。

          其中S表示的是每個token對模型最終預測的貢獻程度[1], 表示注意力權重。圓點顏色越紅,表示這個注意力頭對語義的貢獻越大。

          接著是句法得分n: 我們使用最被關注的源token作為依賴關系預測的目標,對于每個依賴關系,我們計算每個注意力頭在所有樣例上的平均準確性。最后,將每個頭所有依賴關系中的最大值作為他的句法得分。圓點顏色越藍,表示這個注意力頭對句法的貢獻越大。

          然后是重要性得分c:直接計算當前頭的最大注意力權重在所有樣例上的平均

          圓點顏色越大表示注意力頭對最終預測的貢獻越高。


          句法依賴

          除了注意力頭概覽,本文根據依賴關系也給出了注意力頭的分析。

          注意力權重可以被看作是模型對詞之間依賴關系的預測。切換到句法依賴的可視化之后,鼠標移動到每個token都會高亮跟這個詞有關的注意力連接。在展開的依賴關系圖上還可以看到指定的關系在不同層的權重會如何變化。

          語義關系圖

          同樣,本文也對語義關系進行了可視化。點擊每個概覽中的注意力頭即可展開在這個位置的注意力表示。顏色依然表示的是每個token的顯著性得分。

          一些結論

          本文的可視化方法再一次驗證了一些之前BERT可解釋性文章的結論。例如:BERT的中間層更關注句法信息,以及BERT最后1-2層是分類的關鍵等。

          一個有意思的實驗是DistillBERT和BERT的可視化比較:

          我們知道DistillBERT只用了40%的參數(shù)量達到了BERT97%的效果。用Dodrio來比較他們倆會發(fā)現(xiàn)什么呢?DistillBERT的所有注意力頭大小都差不多,進一步分析發(fā)現(xiàn)大多數(shù)頭的置信度都很接近1。另外,DistillBERT的亮度也更高一些,這表示整體每個頭對句法或者語義的關注度都不高。這些發(fā)現(xiàn)暗示我們,DistillBERT可能學到了語義和句法之外的信息。

          萌屋作者:Sherry。

          本科畢業(yè)于復旦數(shù)院,轉行NLP目前在加拿大滑鐵盧大學讀CS PhD。經歷了從NOIer到學數(shù)學再重回CS的轉變,卻堅信AI的未來需要更多來數(shù)學和自認知科學的理論指導。主要關注問答,信息抽取,以及有關深度模型泛化及魯棒性相關內容。

          作品推薦:

          1. Facebook刷新開放域問答SOTA:模型訓模型!Reader當Teacher!
          2. 谷歌、CMU發(fā)文:別壓榨單模型了!集成+級聯(lián)上分效率更高!
          3. 無需人工!無需訓練!構建知識圖譜 BERT一下就行了!


          往期精彩:

          【原創(chuàng)首發(fā)】機器學習公式推導與代碼實現(xiàn)30講.pdf

          【原創(chuàng)首發(fā)】深度學習語義分割理論與實戰(zhàn)指南.pdf

           談中小企業(yè)算法崗面試

           算法工程師研發(fā)技能表

           真正想做算法的,不要害怕內卷

           算法工程師的日常,一定不能脫離產業(yè)實踐

           技術學習不能眼高手低

           技術人要學會自我營銷

           做人不能過擬合

          點個在看

          瀏覽 188
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产Av特级片 | 国产精品久久久久久久午夜 | 91无码人妻 传媒tv | 男人天堂2024 | 中文字幕乱码中文乱码91 |