<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學(xué)習(xí)attention機(jī)制中的Q,K,V分別是從哪來的?

          共 1206字,需瀏覽 3分鐘

           ·

          2021-09-05 10:32

          提問:找了各種資料,也讀了論文原文,都是詳細(xì)介紹了怎么把Q,K,V通過什么樣的運(yùn)算得到輸出結(jié)果,始終沒有一個(gè)地方有解釋Q,K,V是從哪來的?一個(gè)layer的輸入不就是一個(gè)tensor嗎,為什么會(huì)有Q,K,V這三個(gè)tensor?



          IIIItdaf回答:


          我一做CV的,因?yàn)樵诹私釺ransformer,今天看Self-Attention中的QKV,也產(chǎn)生了此疑惑,為什么非要定義三個(gè)tensor,故搜到此問題。感覺各位都講得不錯(cuò),但還可以說得更直白一點(diǎn)。我大概意會(huì)了一下,因?yàn)閷懘鸢缸鰣D很麻煩也沒什么經(jīng)驗(yàn),就簡(jiǎn)單說說我的理解,不一定準(zhǔn)確,見諒。


          注意力機(jī)制說白了就是要通過訓(xùn)練得到一個(gè)加權(quán),自注意力機(jī)制就是要通過權(quán)重矩陣來自發(fā)地找到詞與詞之間的關(guān)系。因此肯定需要給每個(gè)input定義tensor,然后通過tensor間的乘法來得到input之間的關(guān)系。那這么說是不是給每個(gè)input定義1個(gè)tensor就夠了呢?不夠??!如果每個(gè)input只有一個(gè)相應(yīng)的q,那么q1和q2之間做乘法求取了a1和a2的關(guān)系之后,這個(gè)結(jié)果怎么存放怎么使用呢?而且a1和a2之間的關(guān)系是對(duì)偶的嗎?如果a1找a2和a2找a1有區(qū)別怎么辦?只定義一個(gè)這模型是不是有點(diǎn)太簡(jiǎn)單了。



          一個(gè)不夠就定義兩個(gè),于是有了q和k。q你可以理解為代表自己用的,用q去和別的輸入找關(guān)系;k理解為給別人用的,專門對(duì)付來跟你找關(guān)系的輸入。這樣子,用自己的q去和別人的k(當(dāng)然和自己的k也行)做乘法,就可以得到找出的關(guān)系:權(quán)重 α 了。



          僅定義q和k兩個(gè)夠嗎?可能也還是不夠的。找出來的關(guān)系是要用的,不用等于白找。權(quán)重α是要對(duì)輸入信息做加權(quán),才能體現(xiàn)找到的關(guān)系的價(jià)值的。那跟輸入直接加權(quán)行嗎?這么做也不是不行,就是顯得直接和生硬了點(diǎn)。所以又定義了個(gè)v。要知道,v和q、k一樣,都是通過系數(shù)矩陣對(duì)輸入a做乘法得到的。所以定義了個(gè)v大概等于又對(duì)a加了一層可以學(xué)習(xí)的參數(shù),然后對(duì)經(jīng)過參數(shù)調(diào)整后的a再去做加權(quán)、把通過注意力機(jī)制學(xué)到的關(guān)系給用上。所以,通過α和v的乘法進(jìn)行加權(quán)操作,最終得到輸出o。



          綜上,我的感覺是,定義這3個(gè)tensor,一方面是為了學(xué)習(xí)輸入之間的關(guān)系、找到和記錄誰和誰的關(guān)系權(quán)重,一方面也是在合理的結(jié)構(gòu)下引入了可學(xué)習(xí)的參數(shù),使得網(wǎng)絡(luò)具有更強(qiáng)的學(xué)習(xí)能力。底下這個(gè)圖把他們之間的關(guān)系畫得挺好了,來源于“極市平臺(tái)《搞懂 Vision Transformer 原理和代碼,看這篇技術(shù)綜述就夠了》”,侵刪。



          個(gè)人粗淺解讀,如有不妥請(qǐng)指教。我繼續(xù)學(xué)習(xí)注意力去了……


          文章轉(zhuǎn)載自知乎,著作權(quán)歸屬原作者,侵刪


          ——The  End——



          瀏覽 105
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲21p | 久操久热大香蕉 | 中文资源在线aⅴ | 蜜桃av秘 无码一区三区。 | 久久午夜无码鲁丝片午夜精 |