Attention跟一維卷積有什么區(qū)別?
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
本文轉(zhuǎn)自:視學(xué)算法
Attention跟一維卷積的區(qū)別是啥?
權(quán)重形成機(jī)制不同?

如果只是從運(yùn)算的算子看,也就是矩陣乘法的角度看,區(qū)別不是很大。所以,可以繼承同一個(gè)實(shí)現(xiàn)。
attention輸入的key vector 和query matrix,得到的是attention score logits。一維卷積也是類似的。卷積操作在自然語言處理中也不算少見,比如TextCNN,還有ELMO中的char CNN,你看過代碼的話,其實(shí)也就是卷積核乘以輸入,然后卷積核高度為1,寬度為對(duì)應(yīng)的嵌入長(zhǎng)度。
如果說區(qū)別,那么第一就是輸入的特征的意義是什么?第二就是輸出的特征的意義是什么,以及應(yīng)該如何處理這種特征。
比如key dot product query得到的是相似度,attention list要?dú)w一化,甚至在transformer中要先對(duì)attention score的方差歸一化,然后再做softmax歸一化。一維卷積得到的是信息提取,所以對(duì)于卷積得到的feature map,為了更有效的提取信息,需要池化。
當(dāng)然,這里只是說了最簡(jiǎn)單的點(diǎn)積attention。你看過Luong論文的話會(huì)了解到更加豐富的attention實(shí)現(xiàn)。
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

