<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          性能差異不大?注意力機(jī)制作用被高估了?

          共 2701字,需瀏覽 6分鐘

           ·

          2023-10-23 21:47

          點(diǎn)擊上方小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          要說(shuō)Transformer的核心亮點(diǎn),當(dāng)然是注意力機(jī)制了。

          但現(xiàn)在,一篇新研究卻突然提出了帶點(diǎn)火藥味的觀點(diǎn):

          注意力機(jī)制對(duì)于預(yù)訓(xùn)練Transformer有多重要,這事兒得打個(gè)問(wèn)號(hào)。

          研究人員來(lái)自希伯來(lái)大學(xué)、艾倫人工智能研究所、蘋(píng)果和華盛頓大學(xué),他們提出了一種新的方法,用來(lái)衡量注意力機(jī)制在預(yù)訓(xùn)練Transformer模型中的重要性。

          結(jié)果表明,即使去掉注意力機(jī)制,一些Transformer的性能也沒(méi)太大變化,甚至與原來(lái)的模型差異不到十分之一!

          這個(gè)結(jié)論讓不少人感到驚訝,有網(wǎng)友調(diào)侃:

          你褻瀆了這個(gè)領(lǐng)域的神明!

          所以,究竟如何判斷注意力機(jī)制對(duì)于Transformer模型的重要性?

          把注意力換成常數(shù)矩陣

          這種新測(cè)試方法名叫PAPA,全稱(chēng)“針對(duì)預(yù)訓(xùn)練語(yǔ)言模型注意力機(jī)制的探測(cè)分析”(Probing Analysis for PLMs’ Attention)

          PAPA采用的方法,是將預(yù)訓(xùn)練語(yǔ)言模型(PLMs)中依賴(lài)于輸入的注意力矩陣替換成常數(shù)矩陣。

          如下圖所示,我們熟悉的注意力機(jī)制是通過(guò)Q和K矩陣,計(jì)算得到注意力權(quán)重,再作用于V得到整體權(quán)重和輸出。

          現(xiàn)在,Q和K的部分直接被替換成了一個(gè)常數(shù)矩陣C:

          其中常數(shù)矩陣C的計(jì)算方式如下:

          隨后,用6個(gè)下游任務(wù)測(cè)試這些模型(CoLA、MRPC、SST-2、MNLI、NER、POS),對(duì)比采用PAPA前后,模型的性能差距。

          為了更好地檢驗(yàn)注意力機(jī)制的重要性,模型的注意力矩陣并非一次性全換成常數(shù)矩陣,而是逐次減少注意力頭的數(shù)量。

          如下圖,研究先用了BERT-BASE、RoBERTa-BASE和DeBERTa-BASE做實(shí)驗(yàn),其中y軸表示性能,x軸是注意力頭相比原來(lái)減少的情況:

          隨后,研究又用了BERT-LARGE、RoBERTa-LARGE和DeBERTa-LARGE做實(shí)驗(yàn):

          通過(guò)比較結(jié)果,研究人員發(fā)現(xiàn)了一些有意思的現(xiàn)象:

          首先,用常數(shù)矩陣替換一半的注意矩陣,對(duì)模型性能的影響極小,某些情況下甚至可能導(dǎo)致性能的提升(x值達(dá)到?時(shí),圖中有些模型數(shù)值不減反增)。

          其次,即使注意力頭數(shù)量降低為0,平均性能下降也就8%,與原始模型相比最多不超過(guò)20%。

          研究認(rèn)為,這種現(xiàn)象表明預(yù)訓(xùn)練語(yǔ)言模型對(duì)注意力機(jī)制的依賴(lài)沒(méi)那么大(moderate)

          模型性能越好,越依賴(lài)注意力機(jī)制

          不過(guò),即使是預(yù)訓(xùn)練Transformer模型之間,性能表現(xiàn)也不完全一樣。

          作者們將表現(xiàn)更好的Transformer模型和更差的Transformer模型進(jìn)行了對(duì)比,發(fā)現(xiàn)原本性能更好的模型,在經(jīng)過(guò)PAPA的“測(cè)試”后,性能反而變得更差了。

          如下圖,其中y軸代表各模型原本的平均性能,x軸代表將所有注意力矩陣替換為常數(shù)矩陣時(shí)(經(jīng)過(guò)PAPA測(cè)試)模型性能的相對(duì)降低分值:

          可以看出,之前性能越好的模型,將注意力矩陣替換成常數(shù)矩陣受到的損失也越高。

          這說(shuō)明如果模型本身性能越好,對(duì)注意力機(jī)制的利用能力就越好。

          對(duì)于這項(xiàng)研究,有網(wǎng)友感覺(jué)很贊:

          聽(tīng)起來(lái)很酷,現(xiàn)在不少架構(gòu)太重視各種計(jì)算和性能任務(wù),卻忽略了究竟是什么給模型帶來(lái)的改變。

          但也有網(wǎng)友認(rèn)為,不能單純從數(shù)據(jù)來(lái)判斷架構(gòu)變化是否重要。

          例如在某些情況下,注意力機(jī)制給隱空間(latent space)中數(shù)據(jù)點(diǎn)帶來(lái)的幅度變化僅有2-3%:

          難道這種情況下它就不夠重要了嗎?不一定。

          對(duì)于注意力機(jī)制在Transformer中的重要性,你怎么看?

          論文地址:
          https://arxiv.org/abs/2211.03495

          參考鏈接:
          https://twitter.com/_akhaliq/status/1589808728538509312

                
                
          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺(jué)、目標(biāo)跟蹤、生物視覺(jué)、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測(cè)、車(chē)道線(xiàn)檢測(cè)、車(chē)輛計(jì)數(shù)、添加眼線(xiàn)、車(chē)牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺(jué)實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺(jué)。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱(chēng)+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 262
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  骚逼美女网站 | 欧美黄片在线免费观看 | 日韩va亚洲va欧美va高清 | 欧美AAA网 | 5252色成人免费 |