<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          從發(fā)展歷史視角解析Transformer:從全連接CNN到Transformer

          共 7837字,需瀏覽 16分鐘

           ·

          2022-10-15 05:20

          點(diǎn)擊上方小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          來(lái)源 | AI科技評(píng)論   編譯 | bluemin
          校對(duì) | 陳彩嫻
          Transformer架構(gòu)在機(jī)器學(xué)習(xí)領(lǐng)域(尤其是NLP里)是一項(xiàng)熱門(mén)研究,為我們帶來(lái)了許多重要成果,比如:GPT-2、GPT-3等寫(xiě)稿機(jī)器人;第一代GPT及其性能更優(yōu)越的“繼任者”BERT模型,在眾多語(yǔ)言理解任務(wù)中以前所未有的數(shù)據(jù)利用效率獲得了最準(zhǔn)確的結(jié)果,而且?guī)缀醪恍枰{(diào)整任何參數(shù),也就是在過(guò)去花費(fèi)一個(gè)月做的事情、現(xiàn)在只需要花費(fèi)30分鐘,還達(dá)到了更好的效果;以及AlphaStar等。
          由此可見(jiàn),Transformer的威力真是不同凡響!
          2017年,谷歌團(tuán)隊(duì)首先提出Transformer模型。該團(tuán)隊(duì)將Transformer概括為一句話:“Attention is All You Need.”但單單看這句話,人們并不能對(duì)Transformer模型建立直觀的理解與認(rèn)知。為此,作者希望從發(fā)展歷史的角度對(duì)Transformer模型作一個(gè)直白的解釋。
             經(jīng)典的全連接神經(jīng)網(wǎng)絡(luò)
          在經(jīng)典的全連接神經(jīng)網(wǎng)絡(luò)中,每個(gè)不同的輸入變量都是獨(dú)一無(wú)二的雪花算法(snowflake)。當(dāng)全連接神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)識(shí)別涉及某個(gè)特定變量或其集合時(shí),它們不會(huì)對(duì)其他變量或其集合進(jìn)行任何自動(dòng)泛化。
          當(dāng)你在社科研究或醫(yī)學(xué)研究項(xiàng)目中進(jìn)行回歸分析,輸入可能是人口統(tǒng)計(jì)學(xué)變量(比如“年齡”或“每周飲酒量”)時(shí),上述原理也講得通。但如果輸入變量包含某種已知的、結(jié)構(gòu)化的關(guān)系,比如空間或時(shí)間布局,全連接神經(jīng)網(wǎng)絡(luò)的表現(xiàn)就會(huì)很差
          如果輸入是圖片中的像素,那么全連接網(wǎng)絡(luò)就無(wú)法學(xué)習(xí)類似“左側(cè)的像素較亮,右側(cè)的像素較暗”的模式,而是必須分別學(xué)習(xí)“(0, 0) 比 (1, 0) 亮”,“(1, 0) 比 (2, 0) 亮”以及“ (0, 1) 比 (1, 1) 亮”等等。
             卷積神經(jīng)網(wǎng)絡(luò)
          卷積神經(jīng)網(wǎng)絡(luò)(CNN)了解輸入的空間布局,并用相對(duì)的術(shù)語(yǔ)處理輸入:CNN不學(xué)習(xí)“在位置(572,35)處的像素”,而是學(xué)習(xí)“我正看著的中心的像素”、“左邊的像素”等等。然后,它們一邊“看”向圖像的不同部分一邊滑動(dòng),在每個(gè)區(qū)域中尋找相對(duì)中心的相同圖案。
          CNN與全連接網(wǎng)絡(luò)有兩個(gè)不同點(diǎn):權(quán)值共享(weight sharing)和局部性(locality)。
          • 權(quán)值共享:在中心位置有一些固定的計(jì)算方法,將這些計(jì)算應(yīng)用到每個(gè)位置。

          • 局部性:每一次計(jì)算都只能看向距離中心位置相當(dāng)近的事物。例如,你可能會(huì)在一個(gè)3x3或5x5的窗口中查找圖案特征。
          權(quán)值共享對(duì)于任何空間或時(shí)間構(gòu)造的輸入(包括文本)都是至關(guān)重要的。
          然而,CNN的局部性卻不適用于處理文本。
          我是這樣考慮的:圖像中的每一個(gè)突出事物(狗,狗的鼻子,邊緣,一小塊顏色)都可以分開(kāi)來(lái)獨(dú)立理解,不需要觀察該事物以外的內(nèi)容。比方說(shuō),圖像中不包含替代物,也不包括要求你觀察其他事物來(lái)掌握某物本質(zhì)的參考系統(tǒng)。
          除非是在一些奇奇怪怪的場(chǎng)景,否則通常不會(huì)出現(xiàn)“哦,我現(xiàn)在看到一只狗,但我必須觀察狗以外的事物才確認(rèn)這是一只狗”的情況。所以,你可以從一些小細(xì)節(jié)入手,然后分層次深入思考:“啊,這是邊緣部分–>啊,那是一個(gè)由邊緣組成的長(zhǎng)方形物體–>啊,那是狗的鼻子–>啊,那是狗的頭部–>啊,那是一只狗。”物體的每個(gè)部位都是由它所包含的更小的特征來(lái)定義的。
          但上述的方法并不能用于文本處理。例如,句子中的代詞可能出現(xiàn)在句首,但是指代的先行詞常常在句末。我們沒(méi)有辦法在不改變句意的前提下,將一個(gè)句子準(zhǔn)確無(wú)誤地分解成可以獨(dú)立理解的分句,然后再相互鏈接。所以CNN的局部性原理不利于文本處理。不過(guò),很多人在處理文本時(shí)都使用了CNN。CNN可以解決文本的很多問(wèn)題,但在其他方面能夠發(fā)揮的作用更大。
             循環(huán)神經(jīng)網(wǎng)絡(luò)
          循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與CNN一樣,按次序沿著輸入“滑動(dòng)”,在(權(quán)值共享的)每個(gè)位置執(zhí)行大致相同的計(jì)算步驟。
          但是,RNN并非觀察當(dāng)前位置以及位置周圍的局部小窗口,而是觀察下列信息:
          • 當(dāng)前位置

          • 觀察最后位置之后的輸出
          當(dāng)輸入是文本格式時(shí),感覺(jué)就像“閱讀”:RNN處理第一個(gè)單詞,概括當(dāng)時(shí)所收集到的所有信息;然后根據(jù)概括的信息處理第二個(gè)單詞,更新概括的內(nèi)容;再根據(jù)新的概括內(nèi)容處理第三個(gè)單詞,再次更新概括信息,循環(huán)往復(fù)。
          人們通常使用的是能學(xué)習(xí)何時(shí)遺忘信息(將信息從簡(jiǎn)介中刪除)以及學(xué)習(xí)何時(shí)傳遞信息的RNN架構(gòu)(LSTMs或GRU)。舉例而言,人們會(huì)特地記住“我還沒(méi)有找出this所指代的事物”,然后將這條信息傳遞至盡可能廣的范圍內(nèi)進(jìn)行搜索,直至找到一個(gè)合適的先行詞。
          (3b) RNN可不容易對(duì)付
          盡管RNN所做的工作有點(diǎn)像順序閱讀,但它本身還有一個(gè)棘手的任務(wù)要解決。
          RNN每次只能沿一個(gè)方向“讀取”,這就造成了不對(duì)稱的問(wèn)題:在句首附近,輸出只能使用幾個(gè)單詞所構(gòu)成的信息;在句尾附近,輸出則可以使用所有單詞構(gòu)成的信息。(這一點(diǎn)與CNN相反,因?yàn)镃NN對(duì)每個(gè)位置的信息的處理方式都是一樣的。)
          在這種情況下,如果一個(gè)句子開(kāi)頭的單詞只能根據(jù)后面出現(xiàn)的單詞來(lái)理解時(shí),就會(huì)出現(xiàn)問(wèn)題。RNN可以基于前面的單詞理解后面的單詞(這也是RNN的核心觀點(diǎn)),但不能基于后面的單詞來(lái)理解前面的單詞。
          這個(gè)問(wèn)題可以通過(guò)兩種方式在一定程度上進(jìn)行回避:一是使用多個(gè)RNN層,其中較新的層類似“附加閱讀通道”;二是用兩個(gè)RNN分別從不同方向讀取(這也是“BiLSTMs”的基本原理)。
          但除此之外,RNN的結(jié)構(gòu)仍然面臨著一個(gè)根本難題:RNN只能使用長(zhǎng)度有限的"scratchpad”(便簽存儲(chǔ)器)來(lái)處理單詞之間的依賴關(guān)系,并且必須使用同一個(gè)“scratchpad”來(lái)處理所有短期和長(zhǎng)期依賴關(guān)系。
          大家不妨讀一下下面這個(gè)句子:
          It was a truly beautiful bike, and though there were bigger and sturdier hogs in Steve’s collection, he’d always favored that one just for the sheer aesthetics.
          這并不是一個(gè)很難的句子,但其中關(guān)系縱橫交錯(cuò),引人深思。當(dāng)我們按照“從左到右”的順序閱讀,一開(kāi)始碰到“bike”這個(gè)單詞時(shí),我們可能會(huì)想到是“自行車”;只有當(dāng)我們看到“hogs”時(shí),才明白之前這個(gè)“bike”指的是“摩托車”,而且是通過(guò)間接暗示的方式表達(dá)的。那“hog”這個(gè)詞本身是什么意思呢?單獨(dú)來(lái)看,它可能表示一頭豬。正如我們只能基于“hog”來(lái)理解“bike”一樣,我們也只能基于“bike”來(lái)理解“hog”(或許還得益于“collection”這個(gè)詞,雖然收集豬也并非絕無(wú)可能)。
          這還僅僅是字面上的歧義。整個(gè)句子的含義也存在相似的交錯(cuò)分歧。只有當(dāng)你讀到“sheer aesthetics”時(shí),你才會(huì)真正明白為什么這句話的開(kāi)頭表述是“it was a truly beautiful...”。也只有把全部信息聯(lián)系起來(lái),我們才能明白這個(gè)句子所表達(dá)的關(guān)于Steve、摩托車收藏和他的態(tài)度之間的關(guān)系。
          RNN對(duì)這句話的理解會(huì)有些吃力:首先是把這句話存儲(chǔ)在容量有限的scratchpad中,適當(dāng)省略一些細(xì)節(jié),但還得祈禱被刪掉的細(xì)節(jié)是不重要的。這時(shí)候RNN的內(nèi)心OS可能是:“好吧,還要記得這個(gè)‘it’需要一個(gè)先行詞[scribbles]……我的存儲(chǔ)容量很有限,可能會(huì)被‘beauty’和‘bicycles’分神——哦,天哪,這里還有一個(gè)‘though’引導(dǎo)的分句,呃,但這與‘pigs’有什么關(guān)系?(檢查一遍信息后發(fā)現(xiàn))我現(xiàn)在看到的是 ‘pretty bicycle past tense’(漂亮的車、過(guò)去時(shí)),但里面沒(méi)有提到‘pigs’(豬)。那我就把‘pigs’加進(jìn)來(lái),看看后文有沒(méi)有相關(guān)的解釋……但這個(gè)‘though’到底想表達(dá)什么意思?哦,天哪……”
             注意力機(jī)制
          在作者看來(lái),注意力機(jī)制的提出最初是為了處理成對(duì)的文本,比如文本蘊(yùn)含(“句子1和句子2語(yǔ)義相近、語(yǔ)義相反,或既不相近也不相反?”)
          在這種情況下,人們需要一個(gè)模型,將句子1與句子2中的每個(gè)詞/短語(yǔ)進(jìn)行比較,以找出哪些詞/短語(yǔ)可能是指同一個(gè)主題或其他。
          注意力機(jī)制如上所述。你有兩個(gè)單詞序列(或通常是“positions”),橫軸和縱軸上各有一個(gè)序列,形成一個(gè)大網(wǎng)格,每個(gè)單元格包含一組可能的單詞。然后,你可以采用某種方式來(lái)確定這些單詞幾時(shí)“匹配”,然后針對(duì)每個(gè)單詞進(jìn)行計(jì)算,將其與和它“匹配”的單詞相結(jié)合。
          如前所述,注意力機(jī)制是為了比較兩種不同的文本而提出的。但注意力機(jī)制也可以用來(lái)比較同一個(gè)文本。(這被稱為“自注意力機(jī)制”,但因?yàn)檫@個(gè)方法太常見(jiàn)了,所以人們逐漸就把“自”字去掉,將其統(tǒng)稱為“注意力機(jī)制”了。)
          注意力機(jī)制可以幫助解決代詞或單詞的歧義。有了注意力機(jī)制,你不用將有歧義的文段存儲(chǔ)在容量有限的scratchpad內(nèi)、然后坐等哪天有足夠的存儲(chǔ)空間,而是可以馬上將單詞A與其他可能會(huì)幫助詮釋A的定義的單詞聯(lián)系起來(lái)。這時(shí),代詞和名詞短語(yǔ)可以一步連接,例如將 “Bike”和“hog”一步連接。
          (4b)介紹一個(gè)注意力運(yùn)行方式
          注意力機(jī)制運(yùn)行的方式有很多。本文僅對(duì)在Transformer模型中使用的一種方式進(jìn)行粗略概括。
          想象一下:一個(gè)約會(huì)網(wǎng)站上的兩個(gè)單詞要配對(duì)。對(duì)于每個(gè)單詞,你要計(jì)算:
          關(guān)鍵信息:這個(gè)單詞是“約會(huì)簡(jiǎn)介”(例如“bike”的簡(jiǎn)介可能包含“我是中性名詞”)
          查詢信息:這個(gè)單詞在查閱約會(huì)簡(jiǎn)介時(shí),搜尋的是什么信息?(像“it”這類代詞可能是:“我匹配的是中性名詞”。)
          價(jià)值信息:有關(guān)該詞含義的其他信息,可能與匹配過(guò)程無(wú)關(guān)(例如,有關(guān)“bike”含義的其他信息)
          對(duì)于每個(gè)單詞,你可以利用關(guān)鍵信息和查詢信息來(lái)確定該單詞與自己本身的匹配度,以及與其他單詞的匹配度。然后,你可以匯總價(jià)值信息,用“匹配分?jǐn)?shù)”(match scores)進(jìn)行加權(quán)。最后,你可能會(huì)得到一個(gè)既包含原單詞的大多數(shù)價(jià)值、又包含其他單詞的些許價(jià)值的結(jié)果,比如“我仍然是一個(gè)代詞,但同時(shí)我還指代了這個(gè)名詞,且表達(dá)的就是該名詞的含義?!?/span>
          由于單詞可以有多種不同的關(guān)聯(lián)方式,所以很難讓每個(gè)單詞只包含一條關(guān)鍵信息/查詢信息/價(jià)值信息。其實(shí)大可不必!你想要在一個(gè)單詞內(nèi)包含多少條關(guān)鍵信息/查詢信息/價(jià)值信息都可以!這被稱為“多頭注意力機(jī)制”(“multi-headed” attention),其中每個(gè)單詞的關(guān)鍵信息/查詢信息/價(jià)值信息的數(shù)量是注意力機(jī)制的“頭”的數(shù)量。
          (4c)注意力機(jī)制與CNN
          注意力機(jī)制在某些方面與CNN相似。注意力機(jī)制在每個(gè)位置都會(huì)進(jìn)行一次計(jì)算,把這個(gè)位置的信息和其他位置的信息結(jié)合起來(lái),同時(shí)還能忽略周圍大多數(shù)不相關(guān)的信息。
          但與CNN不同的是,“其他信息”不需要在附近。(注意力機(jī)制不是“局部的”。)而且注意力機(jī)制的當(dāng)前位置不是預(yù)定義的,也不是固定的(不像CNN具有固定的“windows”,尺寸規(guī)定為3x3或其他)。它們是基于所有輸入進(jìn)行動(dòng)態(tài)計(jì)算。
             Attention is all you need
          首先,人們?cè)谑褂谩白宰⒁饬C(jī)制”時(shí),通常只會(huì)用一次。可能是應(yīng)用在一些RNN上,也可能是應(yīng)用在其他地方。注意力機(jī)制被視為一種“調(diào)味劑”,可以“撒”在現(xiàn)有的模型上進(jìn)一步改善模型的性能。“自注意力機(jī)制”通常不會(huì)作為核心功能單元。這與CNN或RNN的層數(shù)不同,前者疊加在一起就可以構(gòu)成一個(gè)模型。
          Transformer模型就是一種以attention為核心功能單元的架構(gòu)。你可以將注意力的層堆疊,就像疊CNN或RNN的層一樣。
          更詳細(xì)來(lái)說(shuō),Transformer模型的單個(gè)“塊”或“層”會(huì)執(zhí)行以下操作:
          一個(gè)注意力步驟
          這個(gè)步驟是對(duì)每個(gè)單詞/位置進(jìn)行局部計(jì)算,不使用其他區(qū)域的信息
          然后,你只需要將這些塊堆疊起來(lái)。第一個(gè)注意力步驟是給每個(gè)單詞添加一些其他含義,這些含義是從其他可能與之相關(guān)的單詞那得來(lái)的。第一個(gè)局部計(jì)算步驟會(huì)進(jìn)行相關(guān)處理,可能就像是“好吧,我們似乎找到了兩個(gè)可以匹配這個(gè)代詞的不同名詞;讓我們來(lái)看看查詢信息,看看要選那個(gè)名詞吧?!比缓?,下一個(gè)注意力步驟是采用每個(gè)單詞更易理解的新含義,并通過(guò)對(duì)上下文的深入理解重新賦予其他單詞新的含義。這些步驟反復(fù)進(jìn)行。
          有趣的是,每一層的序列大小是一樣的。每個(gè)單詞(或“字塊”、“字節(jié)”等并非根據(jù)單詞來(lái)劃分文本的模型)都會(huì)有一個(gè)位置。但是,每個(gè)位置存儲(chǔ)的價(jià)值信息(最初只是以“單詞”展開(kāi))開(kāi)始變得更容易“理解”或更好“處理”信息,根據(jù)上下文中越來(lái)越復(fù)雜的理解需求表示單詞含義。
          (5b)位置編碼;Transformer模型與CNN
          Transformer模型的輸入不僅包括每個(gè)位置的單詞,還包括一個(gè)顯示“這是單詞#1”、“這是單詞#2”等信息的運(yùn)行計(jì)數(shù)器。
          如果沒(méi)有計(jì)數(shù)器,Transformer模型就無(wú)法辨別單詞的順序。Attention qua attention并不關(guān)注單詞位置,而只想弄清楚單詞的含義與單詞“想要”什么。但是,由于Transformer模型的注意力可以看到運(yùn)行計(jì)數(shù)器的內(nèi)容,因此它可以執(zhí)行諸如“此單詞正在尋找附近的單詞”之類的任務(wù)。
          原則上,運(yùn)行計(jì)數(shù)器能幫助Transformer模型學(xué)習(xí)CNN所用的同一個(gè)固定的局部過(guò)濾器。但這些行為會(huì)存在一定限制,比如注意力步驟會(huì)忽略單詞而僅使用位置計(jì)數(shù)器。(另一個(gè)限制是注意力不包含單詞被應(yīng)用的位置計(jì)數(shù)器。)
          我跳過(guò)了一些技術(shù)細(xì)節(jié)的講解,但這就意味著,Transformer模型類是CNN模型類的超集。任何一組局部CNN濾波器都可以用特定的注意力計(jì)算過(guò)程表示,因此Transformer模型的空間包含CNN這個(gè)特例。這表明我們的文本數(shù)據(jù)豐富,至少對(duì)于預(yù)訓(xùn)練而言,用CNN處理文本數(shù)據(jù)會(huì)受到許多限制,應(yīng)用更靈活的模型處理文本數(shù)據(jù)會(huì)更合適。我們不再需要?dú)w納偏好;我們可以在適當(dāng)時(shí)候?qū)W習(xí)那個(gè)樣式。
             1個(gè)模型就能“一統(tǒng)天下”
          事實(shí)上,GPT、GPT-2和BERT,包括最新出來(lái)的GPT-3都屬于同一種Transformer模型。(編者注:GPT的全稱是“Generative Pre-trained Transformer”~)
          在設(shè)計(jì)Transformer模型時(shí),你的選擇是有限的。你可以堆疊一些上文描述的“字塊”。你可以選擇堆疊塊的數(shù)目。你可以選擇在每個(gè)位置表征中存儲(chǔ)多少數(shù)據(jù)(“隱藏尺寸”)。還有許多細(xì)節(jié),這里不再贅述。
          如果你堆疊了12塊,隱藏層節(jié)點(diǎn)數(shù)(hidden size)為768,就會(huì)得到“GPT”、“GPT-2 small”或“BERT_BASE”。
          如果你堆疊了24塊,隱藏層節(jié)點(diǎn)數(shù)為1024,則構(gòu)成“GPT-2 medium”或“BERT_LARGE”。(BERT_LARGE有16個(gè)注意力頭,但據(jù)筆者所知,其他模型通常只有12個(gè)注意力頭。)
          還有“GPT-2 large”是有36個(gè)塊,隱藏層節(jié)點(diǎn)數(shù)為1280。而完整的GPT-2模型堆疊塊數(shù)達(dá)到48,隱藏層節(jié)點(diǎn)數(shù)為1600。(編者注:GPT-3的隱藏層節(jié)點(diǎn)數(shù)為2048)
          以上這些模型的設(shè)計(jì)都沒(méi)有超出原始的Transformer模型,只是把堆疊塊和隱藏層節(jié)點(diǎn)數(shù)的數(shù)值調(diào)高了!
          具有挑戰(zhàn)性的部分是如何獲得大量良好的訓(xùn)練數(shù)據(jù)以及如何實(shí)現(xiàn)良好的訓(xùn)練目標(biāo)。OpenAI將GPT-2的成功歸因于它的規(guī)模和基于Reddit的特殊訓(xùn)練語(yǔ)料庫(kù)。
          BERT沒(méi)有使用Reddit語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,規(guī)模也只有GPT-2的一半大。但是BERT的訓(xùn)練目標(biāo)與GPT-2不同,它不是通過(guò)分句預(yù)測(cè)下一個(gè)單詞,而是從上下文中揭開(kāi)單詞的“面紗”。這樣可以提高原始GPT進(jìn)行單詞預(yù)測(cè)時(shí)的準(zhǔn)確度。(預(yù)測(cè)下一個(gè)單詞的本質(zhì)就是猜謎游戲:如果我們的單詞完全是可預(yù)測(cè)的,那就沒(méi)有再開(kāi)口說(shuō)話的理由了。但如果你是根據(jù)上下文填充缺失的單詞,那么“猜測(cè)作者意圖”的成分就少了。)
          有人將BERT的訓(xùn)練目標(biāo)與GPT-2的語(yǔ)料庫(kù)有機(jī)結(jié)合,我很期待這會(huì)擦出什么樣的火花。【注:BERT具有編碼注意力機(jī)制掩蔽結(jié)構(gòu),GPT-n具有解碼注意力機(jī)制掩蔽結(jié)構(gòu)。在粗略的框架介紹中,編碼與解碼的差異很小,可能不足為道,但也有所區(qū)別?!?/span>
          6.1 進(jìn)一步說(shuō)明
          BERT最令人興奮的是:一個(gè)已經(jīng)在語(yǔ)料庫(kù)中訓(xùn)練過(guò)、并已具備豐富的語(yǔ)言知識(shí)的BERT模型,可以給你解決手上所有特殊的NLP任務(wù)。Attention is all you need.
          你所要做的就是,把BERT模型中的一個(gè)輸出,連接到你感興趣的目標(biāo)上,然后進(jìn)行反向傳播。反向傳播不需要太多,因?yàn)門(mén)ransformer模型中的權(quán)重已經(jīng)掌握它們需要掌握的大部分知識(shí)。你需要對(duì)數(shù)據(jù)集進(jìn)行2到4次調(diào)整,學(xué)習(xí)率在2e-5和5e-5之間,批處理大小為16或32。有了大小合理的數(shù)據(jù)集之后,你就可以在一天之內(nèi)利用普通GPU來(lái)嘗試所有的組合情況。
          這居然是一個(gè)可行的方法,真神奇。更神奇的是,完全相似的模型以其出色的寫(xiě)作能力鎮(zhèn)住了我們所有人。三年前,我們還需要對(duì)許多復(fù)雜架構(gòu)的超參數(shù)進(jìn)行調(diào)整。現(xiàn)在我們有了Transformer模型,它只是形狀相同的注意力塊的堆疊。這就好比你從架子上取下一個(gè)Transformer模型,將其輸出與目標(biāo)連接起來(lái),按下按鈕,然后去吃午飯。當(dāng)你吃完午飯回來(lái)的時(shí)候,你會(huì)發(fā)現(xiàn),與2016屆研究生精心制作的、復(fù)雜艱深的、針對(duì)特定任務(wù)的模型相比,你的模型是占據(jù)絕大優(yōu)勢(shì)的。
          原文鏈接:
          https://nostalgebraist.tumblr.com/post/185326092369/the-transformer-explained

          好消息!

          小白學(xué)視覺(jué)知識(shí)星球

          開(kāi)始面向外開(kāi)放啦??????



          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺(jué)、目標(biāo)跟蹤、生物視覺(jué)、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺(jué)實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺(jué)。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 76
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲高清免费视频 | 请立即播放黑人大黑吊日白人小嫩逼视频 | 殴美肏屄视频免费看 | 国产三级黄色 | 亚洲免费毛片av 亚洲免费特级毛片 |