<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          150億參數(shù),谷歌開源了史上最大視覺模型V-MoE的全部代碼

          共 3907字,需瀏覽 8分鐘

           ·

          2022-01-19 21:45

          ↑ 點擊藍字?關(guān)注極市平臺

          來源丨機器之心
          編輯丨極市平臺

          極市導讀

          ?

          還記得谷歌大腦團隊去年 6 月份發(fā)布的 43 頁論文《Scaling Vision with Sparse Mixture of Experts》嗎?他們推出了史上最大規(guī)模的視覺模型 V-MoE,實現(xiàn)了接近 SOTA 的 Top-1 準確率。如今,谷歌大腦開源了訓練和微調(diào)模型的全部代碼。?>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

          在過去幾十年里,深度學習的進步是由幾個關(guān)鍵因素推動的:少量簡單而靈活的機制、大型數(shù)據(jù)集、更專業(yè)的硬件配置,這些技術(shù)的進步使得神經(jīng)網(wǎng)絡(luò)在圖像分類、機器翻譯、蛋白質(zhì)預測等任務(wù)中取得令人印象深刻的結(jié)果。

          然而,大模型以及數(shù)據(jù)集的使用是以大量計算需求為代價的。最近的研究表明,增強模型的泛化能力以及穩(wěn)健性離不開大模型的支持,因此,在訓練大模型的同時協(xié)調(diào)好與訓練資源的限制是非常重要的。一種可行的方法是利用條件計算,該方法不是為單個輸入激活整個網(wǎng)絡(luò),而是根據(jù)不同的輸入激活模型的不同部分。這一范式已經(jīng)在谷歌提出的 pathway(一種全新的 AI 解決思路,它可以克服現(xiàn)有系統(tǒng)的許多缺點,同時又能強化其優(yōu)勢)愿景和最近的大型語言模型研究中得到了重視,但在計算機視覺中還沒有得到很好的探索。

          稀疏門控混合專家網(wǎng)絡(luò) (MoE) 在自然語言處理中展示了出色的可擴展性。然而,在計算機視覺中,幾乎所有的高性能網(wǎng)絡(luò)都是密集的,也就是說,每個輸入都會轉(zhuǎn)化為參數(shù)進行處理。

          去年 6 月,來自谷歌大腦的研究者提出了 V-MoE(Vision MoE ),這是一種基于專家稀疏混合的新視覺架構(gòu)。當應(yīng)用于圖像識別時,V-MoE 在推理時只需要一半的計算量,就能達到先進網(wǎng)絡(luò)性能。此外,該研究還提出了對路由算法的擴展,該算法可以在整個 batch 中對每個輸入的子集進行優(yōu)先級排序,從而實現(xiàn)自適應(yīng)圖像計算。這允許 V-MoE 在測試時能夠權(quán)衡性能和平滑計算。最后,該研究展示了 V-MoE 擴展視覺模型的潛力,并訓練了一個在 ImageNet 上達到 90.35% 的 150 億參數(shù)模型。


          論文地址:https://arxiv.org/pdf/2106.05974.pdf
          代碼地址:https://github.com/google-research/vmoe

          V-MoE

          谷歌大腦在 ViT 的不同變體上構(gòu)建 V-MoE:ViT-S(mall)、ViT-B(ase)、ViT-L(arge) 和 ViTH(uge),其超參數(shù)如下:


          ViT 已被證明在遷移學習設(shè)置中具有良好的擴展性,在較少的預訓練計算下,比 CNN 獲得更高的準確率。ViT 將圖像處理為一系列 patch,輸入圖像首先被分成大小相等的 patch,這些 patch 被線性投影到 Transformer 的隱藏層,在位置嵌入后,patch 嵌入(token)由 Transformer 進行處理,該 Transformer 主要由交替的自注意力和 MLP 層組成。MLP 有兩個層和一個 GeLU 非線性。對于 Vision MoE,該研究用 MoE 層替換其中的一個子集,其中每個專家都是一個 MLP,如下圖所示:


          為了大規(guī)模擴展視覺模型,該研究將 ViT 架構(gòu)中的一些密集前饋層 (FFN) 替換為獨立 FFN 的稀疏混合(稱之為專家)。可學習的路由層為每個獨立的 token 選擇對應(yīng)的專家。也就是說,來自同一圖像的不同 token 可能會被路由到不同的專家。在總共 E 位專家(E 通常為 32)中,每個 token 最多只能路由到 K(通常為 1 或 2)位專家。這允許擴展模型的大小,同時保持每個 token 計算的恒定。下圖更詳細地顯示了 V-MoE 編碼器塊的結(jié)構(gòu)。

          V-MoE Transformer 編碼器塊

          實驗結(jié)果

          谷歌大腦首先在大型圖像數(shù)據(jù)集 JFT-300M 上對模型進行一次預訓練。

          下圖左展示了模型在所有大小(從 small s/32 到 huge H/14)時的預訓練結(jié)果。然后,使用一個新的 head(一個模型中的最后一層)將模型遷移至新的下游任務(wù)(如 ImageNet)。他們探索了兩種遷移設(shè)置:在所有可用的新任務(wù)示例上微調(diào)整個模型或者凍結(jié)預訓練網(wǎng)絡(luò)并使用少量示例僅對新 head 調(diào)整(即所謂的小樣本遷移)

          下圖右總結(jié)了模型遷移至 ImageNet 的效果,其中每個圖像類別僅在 5 張圖像上訓練(叫做 5-shot transfer)。

          左為 JFT-300M 數(shù)據(jù)集上的 Precision@1 曲線圖;右為 ImageNet 5-shot 的準確率曲線圖。

          對于這兩種情況,谷歌大腦發(fā)現(xiàn),在給定訓練計算量時,稀疏模型顯著優(yōu)于密集模型或者更快地實現(xiàn)相似性能。為了探索視覺模型的極限,他們在 JFT-300M 擴展數(shù)據(jù)集上訓練了一個具有 150 億參數(shù)、24 個 MoE 層(出自 48 個塊)的模型。這個迄今為止最大的視覺模型在 ImageNet 上實現(xiàn)了 90.35 的 Top-1 準確率。


          優(yōu)先路由

          在實踐中,由于硬件限制,使用動態(tài)大小的緩沖區(qū)(buffer)效率不高,因此模型通常為每個專家使用預定義的緩沖區(qū)容量。一旦專家變「滿」,超出此容量的分配 token 將被丟棄并不會被處理。因此,更高的容量會產(chǎn)生更高的準確性,但它們的計算成本也更高。

          谷歌大腦利用這種實現(xiàn)約束來使 V-MoE 在推理時更快。通過將總組合緩沖區(qū)容量降低到要處理的 token 數(shù)量以下,網(wǎng)絡(luò)被迫跳過處理專家層中的一些 token。該模型不是以某種任意方式選擇要跳過的 token(就像以前的工作那樣),而是學習根據(jù)重要性分數(shù)對它們進行排序。這樣可以保持高質(zhì)量的預測,同時節(jié)省大量計算。他們將這種方法稱為批量優(yōu)先級路由(Batch Priority Routing, BPR)?,動態(tài)示意圖如下所示:

          在高容量下,Vanilla 和優(yōu)先路由都可以很好地處理所有 patch。但是,當減小緩沖區(qū)大小以節(jié)省計算時,Vanilla 路由選擇處理任意 patch,通常導致預測不佳;BPR 智能地優(yōu)先選擇處理重要 patch,使得以更低的計算成本獲得更佳的預測。

          事實證明,適當?shù)貏h除 token 對于提供高質(zhì)量和更有效的推理預測至關(guān)重要。當專家容量減少時,Vanilla 路由機制的性能會迅速下降。相反,BPR 對低容量更為穩(wěn)健。


          總體而言,谷歌大腦觀察發(fā)現(xiàn),V-MoE 在推理時非常靈活:例如,可以減少每個 token 選擇的專家數(shù)量以節(jié)省時間和計算,而無需對模型權(quán)重進行任何進一步的訓練。

          探索 V-MoE

          由于關(guān)于稀疏網(wǎng)絡(luò)的內(nèi)部工作原理還有很多待發(fā)現(xiàn),谷歌大腦還探索了 V-MoE 的路由模式。一種假設(shè)是,路由器會根據(jù)某些語義背景(如「汽車」專家、「動物」專家等)學會區(qū)分并分配 token 給專家。?

          為了測試這一點,他們在下面展示了兩個不同 MoE 層的圖,一個非常早期(very early-on),另一個更靠近 head。x 軸對應(yīng) 32 個專家中的每一個,y 軸顯示圖像類別的 ID(從 1 到 1000)。圖中每個條目都顯示了為與特定圖像類對應(yīng)的 token 選擇專家的頻率,顏色越深表示頻率越高。

          結(jié)果顯示,雖然在早期層幾乎沒有相關(guān)性,但在網(wǎng)絡(luò)后期,每個專家只接收和處理來自少數(shù)幾個類別的 token。因此,可以得出結(jié)論,patch 的一些語義聚類出現(xiàn)在網(wǎng)絡(luò)的更深層。

          更高的路由決策與圖像類別相關(guān)。

          谷歌大腦相信這只是計算機視覺大規(guī)模條件計算的開始。異構(gòu)專家架構(gòu)和條件可變長度路由也是有潛力的研究方向。稀疏模型尤其有益于數(shù)據(jù)豐富的領(lǐng)域,例如大規(guī)模視頻建模。他們希望開源的代碼和模型能夠吸引更多研究人員關(guān)注該領(lǐng)域。

          原文鏈接:
          https://ai.googleblog.com/2022/01/scaling-vision-with-sparse-mixture-of.html?continueFlag=b96fa8ed72dfc82b777e51b7e954c7dc

          如果覺得有用,就請分享到朋友圈吧!

          △點擊卡片關(guān)注極市平臺,獲取最新CV干貨

          公眾號后臺回復“transformer”獲取最新Transformer綜述論文下載~


          極市干貨
          課程/比賽:珠港澳人工智能算法大賽保姆級零基礎(chǔ)人工智能教程
          算法trick目標檢測比賽中的tricks集錦從39個kaggle競賽中總結(jié)出來的圖像分割的Tips和Tricks
          技術(shù)綜述:一文弄懂各種loss function工業(yè)圖像異常檢測最新研究總結(jié)(2019-2020)


          #?CV技術(shù)社群邀請函?#

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)


          即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          覺得有用麻煩給個在看啦~??
          瀏覽 37
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲一卡二卡三卡四卡五卡 | 成人免费无码麻豆精品 | 豆花AV网站在线观看 | 日韩激情在线视频 | 成人激情站,开心五月天 |