<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌聯(lián)手DeepMind提出Performer:用新方式重新思考注意力機(jī)制

          共 2921字,需瀏覽 6分鐘

           ·

          2020-10-28 03:07

          ? ? ? ?




          ??新智元報(bào)道??

          編輯:QJP

          【新智元導(dǎo)讀】谷歌、 DeepMind、艾倫圖靈研究院和劍橋大學(xué)的科學(xué)家們提出了「Performer」,一種線性擴(kuò)展的人工智能模型架構(gòu),并在蛋白質(zhì)序列建模等任務(wù)中表現(xiàn)良好。它有潛力影響生物序列分析的研究,降低計(jì)算成本和計(jì)算復(fù)雜性,同時(shí)減少能源消耗和碳排放。

          Transformer 模型在很多不同的領(lǐng)域都取得了SOTA,包括自然語(yǔ)言,對(duì)話,圖像,甚至音樂(lè)。每個(gè) Transformer 體系結(jié)構(gòu)的核心模塊是 Attention 模塊,它為一個(gè)輸入序列中的所有位置對(duì)計(jì)算相似度score。
          ?
          然而,這種方法在輸入序列的長(zhǎng)度較長(zhǎng)時(shí)效果不佳,需要計(jì)算時(shí)間呈平方增長(zhǎng)來(lái)產(chǎn)生所有相似性得分,以及存儲(chǔ)空間的平方增長(zhǎng)來(lái)構(gòu)造一個(gè)矩陣存儲(chǔ)這些score。
          ?
          對(duì)于需要長(zhǎng)距離注意力的應(yīng)用,目前已經(jīng)提出了幾種快速且更節(jié)省空間的方法,如內(nèi)存緩存技術(shù),但是一種更常見的方法是依賴于稀疏注意力。
          ?
          稀疏注意力機(jī)制通過(guò)從一個(gè)序列而不是所有可能的Pair中計(jì)算經(jīng)過(guò)選擇的相似性得分來(lái)減少注意機(jī)制的計(jì)算時(shí)間和內(nèi)存需求,從而產(chǎn)生一個(gè)稀疏矩陣而不是一個(gè)完整的矩陣。
          ?
          這些稀疏條目可以通過(guò)優(yōu)化的方法找到、學(xué)習(xí),甚至隨機(jī)化,如Sparse Transformers、Longformers、RoutingTransformers、Reformers和BigBird。
          ?? ?? ? ? ?
          由于稀疏矩陣也可以用圖形和邊來(lái)表示,稀疏化方法也受到圖神經(jīng)網(wǎng)絡(luò)文獻(xiàn)的推動(dòng),在圖注意網(wǎng)絡(luò)中列出了與注意力的具體關(guān)系。這種基于稀疏性的體系結(jié)構(gòu)通常需要額外的層來(lái)隱式地產(chǎn)生完全的注意力機(jī)制。
          ?
          不幸的是,稀疏注意力的方法仍然會(huì)受到一些限制,如:
          ?
          (1)需要高效的稀疏矩陣乘法運(yùn)算,但并非所有加速器都能使用;
          ?
          (2)通常不能為其表示能力提供嚴(yán)格的理論保證;
          ?
          (3)主要針對(duì) Transformer 模型和生成式預(yù)訓(xùn)練進(jìn)行優(yōu)化;
          ?
          (4)它們通常堆疊更多的注意力層以補(bǔ)償稀疏表示,使其難以與其他預(yù)訓(xùn)練模型一起使用,因此需要重新訓(xùn)練和顯著的內(nèi)存消耗。
          ?
          除了這些缺點(diǎn),稀疏注意力機(jī)制往往仍然不足以解決所有的正常注意力機(jī)制的問(wèn)題,如指針網(wǎng)絡(luò)(Pointer Network)。同時(shí)也存在一些不能稀疏化的操作,比如常用的softmax操作,它使注意機(jī)制中的相似度得分歸一化,在工業(yè)規(guī)模的推薦系統(tǒng)中得到了廣泛的應(yīng)用。
          ?
          為了解決這些問(wèn)題,Google AI的研究人員引入了「Performer」,這是一個(gè)具有注意力線性擴(kuò)展機(jī)制的Transformer架構(gòu),可以使模型在處理更長(zhǎng)序列的同時(shí)實(shí)現(xiàn)更快的訓(xùn)練,這是對(duì)于特定的圖像數(shù)據(jù)集如 ImageNet64和文本數(shù)據(jù)集如 PG-19所必需的。
          ?
          Performer使用了一個(gè)有效的(線性的)廣義注意力框架,它是一種允許基于不同的相似性度量(Kernel)的注意力機(jī)制。
          ?
          廣義注意力機(jī)制
          ?
          在原有的注意力機(jī)制中,query和key分別對(duì)應(yīng)于矩陣的行和列,再進(jìn)行相乘并通過(guò)softmax形成一個(gè)注意力矩陣,并存儲(chǔ)下來(lái)相似性score。
          ?
          請(qǐng)注意,在這種方法中,不能將query-key傳遞到非線性 softmax 操作之后再將其分解回原來(lái)的key和query,但是可以將注意力矩陣分解為原始query和key的隨機(jī)非線性函數(shù)的乘積,也就是所謂的隨機(jī)特征(random features),這樣就可以更有效地對(duì)相似性信息進(jìn)行編碼。
          ???? ? ? ?
          FAVOR+: Fast Attention via Matrix Associativity
          ?
          上面描述的那種矩陣分解,使得可以使用線性而不是二次的復(fù)雜度來(lái)存儲(chǔ)隱式注意力矩陣,同時(shí)也可以通過(guò)這種分解得到一個(gè)線性時(shí)間的注意力機(jī)制。
          ?
          原有的注意力機(jī)制是將注意力矩陣乘以輸入的value值來(lái)得到最終結(jié)果,而注意力矩陣分解后,可以重新排列矩陣乘法來(lái)逼近常規(guī)注意機(jī)制的結(jié)果,而無(wú)需顯式構(gòu)造二次的注意力矩陣。
          ???? ? ? ?
          上述分析與所謂的雙向注意力有關(guān),即沒(méi)有過(guò)去和未來(lái)概念的「非因果注意力」。
          ?
          對(duì)于單向(因果)注意力,即Mask掉不參與輸入序列后面計(jì)算的其他token,只使用前面的token參與計(jì)算,只存儲(chǔ)運(yùn)行矩陣計(jì)算的結(jié)果,而不是存儲(chǔ)一個(gè)顯式的下三角注意力矩陣。
          ?? ? ? ?

          性能
          ?
          我們首先對(duì)Performer的空間和時(shí)間復(fù)雜度進(jìn)行基準(zhǔn)測(cè)試,結(jié)果表明,注意力加速和內(nèi)存減少幾乎是最優(yōu)的,也就是說(shuō),結(jié)果非常接近于在模型中根本不使用注意力機(jī)制。
          ?? ? ? ?? ? ? ?
          研究人員又進(jìn)一步展示了 Performer,使用無(wú)偏 softmax 逼近,向后兼容經(jīng)過(guò)一點(diǎn)微調(diào)的預(yù)訓(xùn)練Transformer模型,可以通過(guò)提高推斷速度降低成本,而不需要完全重新訓(xùn)練已有的模型。
          ?? ? ? ?? ? ? ?
          案例:蛋白質(zhì)序列建模
          ?
          蛋白質(zhì)是具有復(fù)雜三維結(jié)構(gòu)和特定功能的大分子,對(duì)生命來(lái)說(shuō)至關(guān)重要。與單詞一樣,蛋白質(zhì)被指定為線性序列,其中每個(gè)字符是20個(gè)氨基酸構(gòu)建塊中的一個(gè)。
          ?
          將 Transformers 應(yīng)用于大型未標(biāo)記的蛋白質(zhì)序列產(chǎn)生的模型可用于對(duì)折疊的功能性大分子進(jìn)行準(zhǔn)確的預(yù)測(cè)。
          ?
          Performer-ReLU (使用基于 relu 的注意力,這是一個(gè)不同于 softmax 的廣義注意力)在蛋白質(zhì)序列數(shù)據(jù)建模方面有很強(qiáng)的表現(xiàn),而 Performer-Softmax 與 Transformer 的性能相匹配,正如理論所預(yù)測(cè)的結(jié)果那樣。
          ?? ?? ? ? ?
          下面,我們可視化一個(gè)蛋白質(zhì)Performer模型,使用基于 relu 的近似注意力機(jī)制進(jìn)行訓(xùn)練,使用 Performer 來(lái)估計(jì)氨基酸之間的相似性,從序列比對(duì)中分析進(jìn)化替換模式得到的替換矩陣中恢復(fù)類似的結(jié)構(gòu)。
          ?? ? ??? ? ? ?
          更一般地說(shuō),我們發(fā)現(xiàn)局部和全局注意力機(jī)制與用蛋白質(zhì)數(shù)據(jù)訓(xùn)練的Transformer模型一致。Dense Attention的近似Performer有可能捕捉跨越多個(gè)蛋白質(zhì)序列的全局相互作用。
          ?? ? ??? ? ? ?
          作為概念的驗(yàn)證,對(duì)長(zhǎng)串聯(lián)蛋白質(zhì)序列進(jìn)行模型訓(xùn)練,會(huì)使得常規(guī) Transformer 模型的內(nèi)存過(guò)載,但 Performer模型的內(nèi)存不會(huì)過(guò)載,因?yàn)樗目臻g利用很高效。
          ?
          結(jié)論
          ?
          Google AI的這項(xiàng)工作有助于改進(jìn)基于非稀疏的方法和基于Kernel的Transformer,這種方法也可以與其他技術(shù)互操作,研究人員甚至還將 FAVOR 與Reformer的代碼集成在一起。同時(shí)研究人員還提供了論文、 Performer的代碼和蛋白質(zhì)語(yǔ)言模型的代碼鏈接。
          ?
          Google AI的研究人員相信,他們對(duì)于Performer的研究開辟了一種關(guān)于Attention、Transformer架構(gòu)甚至Kernel的全新的思維方式,對(duì)于進(jìn)一步的改進(jìn)有巨大的啟示作用。

          ?



          瀏覽 30
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本高清视色www | 欧美亚洲性爱在线 | 国产颜射| 日本中文字幕在线播放 | 国产精品高潮视频 |