<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌稱之為“下一代 AI框架”, Pathways真有那么強(qiáng)嗎?

          共 4178字,需瀏覽 9分鐘

           ·

          2022-04-26 07:50

          大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤的賣萌屋

          作者:Severus


          今年清明節(jié),Google 搞了一點小動作,在 arxiv 上放出了自己的新工作,PaLM[1] (PaLM: Scaling Language Modeling with Pathways)。


          這是自去年,Jeff Dean 談?wù)撓乱淮?AI,提出 Pathways[2] 架構(gòu)之后,其第一次秀出了自己的成績。既然秀肌肉的一件工作,我們不必懷疑,其在各大不同的基準(zhǔn)任務(wù)上,能展現(xiàn)出什么樣的非凡能力。


          論文發(fā)出之后,各家大V迅速跟進(jìn),各種解讀鋪天蓋地,關(guān)于它是什么樣子的,它的實現(xiàn)細(xì)節(jié),它展現(xiàn)了什么樣的效果,已不必贅述。今天,我想要談一談,Pathways 及其背后的思想,可能會開啟什么新的紀(jì)元?為什么 Jeff Dean 認(rèn)為它是下一代的 AI 架構(gòu)?


          緣起:Swtich Transformer


          事情還是要回到去年1月份。彼時以 GPT-3 為首,預(yù)訓(xùn)練語言模型界刮起了大模型之風(fēng)。當(dāng)然,這股風(fēng)浪到現(xiàn)在也沒有過去,千億級別的大模型,仍然是你方唱罷我登場。而在那個時候,Google 一篇 Switch Transformers[3] 引起了我的注意。說來慚愧,當(dāng)時我注意到這篇工作,還是因為某公眾號提出了“萬億”這一關(guān)鍵詞。而彼時由于大模型的風(fēng)刮了太久,對這種工作我充滿了不屑,且 Google 是出了名的“大力出奇跡”,我也僅僅是將其當(dāng)成了卷出新高度的工作,打開看了一眼。


          我承認(rèn),我被打臉了,Switch Transformers 想要秀出來的,不只是 Google 的廚力有多強(qiáng),更在于,他們翻出了一個古老而優(yōu)美的架構(gòu)——Geoffrey Hinton 于1991年提出的,混合專家模型[4](Mixture Of Experts,下稱 MoE)。



          MoE,與我們通常所理解的 DNN模型的很大區(qū)別是,其內(nèi)部不是由一個統(tǒng)一的模型組成,而是由若干個小模型組成,一次計算會使用哪些小模型,由一個稀疏門控系統(tǒng)決定[5]。當(dāng)時我注意到的是,把大模型變成若干個小模型,技術(shù)上的意義則是,計算量會降低,運算效率會變快,自然,模型的總參數(shù)量也就可以變得更大。



          需要說明的是,在這個時候,我對 MoE 前景的理解是極其淺薄的,那個時候的我根本沒有看到,其后面的巨大價值。


          而到了去年10月底,也就是 Pathways 發(fā)布臨近,馬后炮地說,我在和同事暢想未來的時候,也提出了類似的設(shè)想,并將之放在了我11月的技術(shù)分享中,作為“未來篇”的結(jié)尾?,F(xiàn)在想來,這是一個美好的巧合,從當(dāng)前 AI 技術(shù)的發(fā)展步調(diào)來看,卻也是一個歷史的必然。


          以我老 CS 人的嗅覺,我發(fā)現(xiàn),MoE 的潛在價值在于其工程思想,這一架構(gòu),給多任務(wù),乃至多模態(tài)提供了一個新的、且我認(rèn)為更加靠譜的方向。


          無限統(tǒng)合


          首先,既然 MoE 的各個專家由稀疏門控制,則專家之間相互可看作是獨立的。那么我們就可以做一個非常樸素的猜測,不同的任務(wù),可以由門控系統(tǒng)分配給不同的專家來處理,這樣任務(wù)之間就不會有太大的影響。這一點個人認(rèn)為是比較重要的,因為不同的任務(wù),大概率會有相互之間沖突的地方,雖然大模型可以依靠大規(guī)模參數(shù)所帶來的記憶能力,緩解這一問題。


          通常多任務(wù)學(xué)習(xí)的前提假設(shè)是,多個任務(wù)之間,是可以互相增益的,其潛在邏輯在于,多個任務(wù)所應(yīng)用到的知識,存在共通的地方。實際上,預(yù)訓(xùn)練模型或預(yù)訓(xùn)練特征(word2vec等),就是找到一種看上去所有任務(wù)都會用到的自監(jiān)督特征,使用大量的語料訓(xùn)練出來,保證覆蓋,使之在遷移學(xué)習(xí)上成立。


          而獨立,則可以真正地讓一個系統(tǒng)處理多個任務(wù)。


          而如我上面所提,那不是就意味著,多個任務(wù)之間共通的那部分特征也就獨立,造成不必要的冗余了呢?實際上,哪怕只有一個任務(wù)輸入到 MoE 系統(tǒng)中,也不可能只激活一個專家,單個任務(wù),也有可能同時激活多個專家, 那么,我們是否可以認(rèn)為,激活的這多個專家,實際上已經(jīng)把這個任務(wù)給拆解開了呢?理想狀況下,被激活的各個專家各司其職,分別抽取一部分特征,再通過某種方式結(jié)合起來,決定了模型的輸出。


          那么,多任務(wù)場景之下,理想狀況下,就可以認(rèn)為,任務(wù)之間共通的知識,由相同的專家學(xué)到,而任務(wù)之間差異的知識,則由不同的專家捕捉,二者有機(jī)結(jié)合,形成了一個統(tǒng)合的多任務(wù)系統(tǒng)。


          說到這,我們就可以把腦洞開的更大一些了,多任務(wù)可以解決,多模態(tài)能否解決呢?


          我認(rèn)為,Pathways 所代表的思想,是一種更加有力的多模態(tài)解決方案。


          多模態(tài)與 Pathways


          當(dāng)前多模態(tài)最大的困境是什么呢?實際上是數(shù)據(jù)空間無法對齊。以文本與圖片為例,請小伙伴們同我思考,當(dāng)我說出“一匹馬”的時候,你的腦海中會想象出多少張圖片?


          而當(dāng)我讓你描述這樣一張圖片的時候,你的腦海中又能蹦出多少種描述方式?



          我想這兩個問題的答案,都是無限,對吧?這也就意味著,通用意義上,或當(dāng)任務(wù)空間足夠大的時候,圖片和文本數(shù)據(jù),是不可能對齊的。數(shù)據(jù)無法對齊,訓(xùn)練過程中,多模的知識自然也會趨向過擬合式的綁定,這也就意味著,單個 dense 網(wǎng)絡(luò)結(jié)構(gòu)的多模態(tài)模型,僅僅可以處理足夠窄場景的多模任務(wù),如某音的短視頻搜索。


          而到了 MoE 中,如我前面所說,不需要做數(shù)據(jù)對齊,同時也沒有直接去硬性組合最終的輸出,而是在中間層的抽象特征上,做了映射和組合。這樣一種結(jié)構(gòu),不敢說通用,至少處理更大場景、更多元的多模任務(wù)時,看上去更加合理一些。


          那么我們可以大膽設(shè)想,預(yù)訓(xùn)練-微調(diào)可以是這個樣子的:訓(xùn)練一個包羅萬象的大模型,由這個大模型,則可以導(dǎo)出各種處理專用任務(wù)的小模型,這可能才是有錢有算力的機(jī)構(gòu)的使命所在。由于大模型是保羅萬象的,內(nèi)部是由多個獨立專家組成的,我們不必再擔(dān)心 fine-tuning 會破壞模型原本學(xué)到的知識,預(yù)訓(xùn)練階段學(xué)到的知識也能夠得到更好的利用。


          最后一部分,我想要從另一個角度,談一下為什么我相信 Pathways。


          從認(rèn)知科學(xué)的角度


          人工智能研究的目標(biāo)之一,是真正做出一個強(qiáng)智能,而由于目前,我們能夠參考的唯一一個真正的強(qiáng)智能,只有我們自己,所以接下來,我將以我對人腦粗淺的認(rèn)識為類比,繼續(xù)聊一聊 Pathways。


          我們繼續(xù)以多模態(tài)為例。首先,人處理信息的時候,一定是多模態(tài)的,這個已經(jīng)是一個常識了。所以多模態(tài)也一定是 AI 的趨勢。但是,單個 dense 模型的多模態(tài)研究,前文已提到,需要的是數(shù)據(jù)的對齊,而用認(rèn)知的話來講,則是用一個感知系統(tǒng)去處理多種感知信號(需要說明的是,這里所說的感知系統(tǒng)與器官不是等同概念)。


          是的,人是多模的,但是,人不是這么處理感知信號的,對于不同形式的感知信號,人是有不同的感知系統(tǒng)對應(yīng)處理的,而同時又有認(rèn)知系統(tǒng)進(jìn)一步處理感知信號,形成我們對世界的認(rèn)知。



          人腦是有多個感知系統(tǒng)的,而感知系統(tǒng)之間,又是相對獨立的,不同的感知系統(tǒng)有可能分布在不同的腦區(qū)。同時,去年我關(guān)注到畢彥超老師關(guān)于知識的雙重編碼理論的工作[6],他們的實驗結(jié)論表明,先天盲人也是能夠通過認(rèn)知系統(tǒng),學(xué)習(xí)到“紅色”這一概念的,也就說明了,即使對于顏色的感知系統(tǒng)缺失了,人依舊能夠?qū)W會顏色概念。同時,通過核磁共振成像,也可以觀察到,在提到顏色概念時,先天盲人被激活的腦區(qū),和視覺正常的人被激活的腦區(qū),是不一樣的。也就說明,感知系統(tǒng)和認(rèn)知系統(tǒng)也分布在不同的腦區(qū),且相互獨立。


          這種結(jié)構(gòu),保證了很好的容錯能力。即,人的某一個感知系統(tǒng)出現(xiàn)問題了,一般不會影響到其他的感知系統(tǒng)(雙目失明的人同樣可以聽到聲音,嘗到味道);而某一感知系統(tǒng)缺失,也可以不影響人的認(rèn)知。


          那么,我們將這些對應(yīng)到我上文所講到,Pathways 的前景上,是不是可以說,相比于單純的堆砌神經(jīng)元數(shù)量,它和目前認(rèn)知科學(xué)所理解到的,大腦的運行機(jī)制,非常像呢?不同的感知系統(tǒng),對應(yīng)不同的專家網(wǎng)絡(luò),而從感知到認(rèn)知,則在系統(tǒng)中作為抽象特征組合,也由更高層次的專家網(wǎng)絡(luò)處理,部分通用的知識,也由認(rèn)知系統(tǒng)存儲了下來;且不同的模態(tài),或不同的特征可以缺省,增強(qiáng)了整體的容錯能力。從這個角度來看,的確,下一代的智能可能就應(yīng)該是這個樣子的。


          我不敢妄言具象的 Pathways 一定就是未來,從最抽象的意義上講,它提出了一條可行的路徑,或許可以通往智能。


          當(dāng)然,做這個東西的大前提是,有錢……



          參考文獻(xiàn):

          [1] Chowdhery A, Narang S, Devlin J, et al. PaLM: Scaling Language Modeling with Pathways[J]. arXiv preprint arXiv:2204.02311, 2022.

          [2] https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/

          [3] Fedus W, Zoph B, Shazeer N. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity[J]. arXiv preprint arXiv:2101.03961, 2021.

          [4] Jacobs R A, Jordan M I, Nowlan S J, et al. Adaptive mixtures of local experts[J]. Neural computation, 1991, 3(1): 79-87.

          [5] Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.

          [6] Bi Y. Dual coding of knowledge in the human brain[J]. Trends in Cognitive Sciences, 2021, 25(10): 883-895.



          點「在看」的人都變好看了哦!
          瀏覽 80
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www.一区二区三区在线 | 欧洲 国产精品久久久久久爽爽爽麻豆色哟哟 | 狠狠狠狠狠狠狠狠狠狠狠 | 学生妹一级a片免费看 | 久操影视 | 高清无码操逼视频 |