<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌開始卷自己,AI架構Pathways加持,推出200億生成模型

          共 2683字,需瀏覽 6分鐘

           ·

          2022-07-08 06:58

          來源:機器之心
          本文約1700,建議閱讀5分鐘

          繼imagen后,谷歌又推出了文本,如想生成模擬Parti。

          繼 Imagen 后,谷歌又推出了文本 - 圖像生成模型 Parti。

          你見過一只小狗破殼而出嗎?或者用飛艇俯瞰蒸汽朋克中的城市?又或者兩個機器人在電影院像人類一樣看電影…… 這些聽起來可能有些天馬行空,但一種名為「文本到圖像生成」的新型機器學習技術使這些成為可能。


          谷歌研究院的科學家和工程師一直致力于探索使用各種 AI 技術生成文本到圖像的方法。

          今年 5 月底,谷歌推出 AI 創(chuàng)作神器 Imagen,它結合了 Transformer 語言模型和高保真擴散模型的強大功能,在文本到圖像的合成中提供前所未有的逼真度和語言理解能力。與僅使用圖像 - 文本數(shù)據(jù)進行模型訓練的先前工作相比,Imagen 的關鍵突破在于:谷歌的研究者發(fā)現(xiàn)在純文本語料庫上預訓練的大型 LM 的文本嵌入對文本到圖像的合成顯著有效。Imagen 的文本到圖像生成可謂天馬行空,能生成多種奇幻卻逼真的有趣圖像。

          Imagen 生成效果是這樣的,比如正在戶外享受騎行的柴犬(下圖左)以及狗狗照鏡子發(fā)現(xiàn)自己是只貓(下圖右):


          時隔沒多久,谷歌又推出了 Parti(Pathways Autoregressive Text-to-Image),該模型最高可擴展至 200 億參數(shù),并且隨著可使用參數(shù)數(shù)量的增長,其輸出的圖像也能夠更加逼真。

          值得一提的是,這是谷歌大牛 Jeff Dean 提出的多任務 AI 大模型藍圖 Pathways 的一部分。

          我們先來看下 Parti 效果,袋熊在瀑布旁,背著書包,拄著拐杖眺望著遠方:


          埃及阿努比斯肖像,在洛杉磯背景下,戴著飛行員護目鏡,穿著白色 t 恤和黑色皮夾克:


          一只熊貓戴著一頂巫師帽騎在馬上:


          下面我們介紹一下 Parti 的實現(xiàn)原理。

          Parti 模型

          與 DALL-E、CogView 和 Make-A-Scene 類似,Parti 是一個兩階段模型,由圖像 tokenizer 和自回歸模型組成,如下圖 3 所示。第一階段訓練一個 tokenizer,該 tokenizer 可以將圖像轉換為一系列離散的視覺 token,用于訓練并在推理時重建圖像。第二階段訓練從文本 token 生成圖像 token 的自回歸序列到序列模型。


          圖像 Tokenizer

          首先,該研究訓練了一個 ViT-VQGAN-Small 模型(8 個塊,8 個頭,模型維度 512,隱藏維度 2048,總參數(shù)約為 30M),并且學習了 8192 張圖像 token 類別用于代碼本。

          為了進一步提高第二階段編碼器 - 解碼器訓練后重建圖像的視覺靈敏度,該研究凍結了 tokenizer 的編碼器和代碼本,并微調更大尺寸的 tokenizer 解碼器(32 個塊,16 個頭,模型維度 1280,隱藏維度 5120, 總參數(shù)約 600M)。圖像 tokenizer 的輸入和輸出使用 256×256 分辨率。

          最后,雖然分辨率為 256×256 的圖像捕獲了大部分內容、結構和紋理,但更高分辨率的圖像具有更大的視覺沖擊力。為此,該研究在圖像 tokenizer 上采用了一個簡單的超分辨率模塊,如下圖 4 所示。


          文本到圖像生成的編碼器 - 解碼器架構

          如上圖 3 所示,該研究第二階段訓練了一種標準的編碼器 - 解碼器 Transformer 模型,將文本到圖像視為序列到序列建模問題。該模型將文本作為輸入,并使用從第一階段圖像 tokenizer 生成的光柵化圖像潛在代碼的下一個 token 預測進行訓練。對于文本編碼,該研究構建了一個 sentence-piece 模型,詞匯量為 16000。在推理時,模型對圖像 token 進行自回歸采樣,隨后使用 ViT-VQGAN 解碼器將其解碼為像素。

          該研究使用的文本 token 最大為 128,圖像 token 的長度固定為 1024。所有模型都使用 conv-shaped 掩碼稀疏注意力。該研究訓練了四種變體,參數(shù)量從 3.5 億到 200 億不等,如下表 1 所示。


          以下為對 Parti 模型四種大小比較結果,可以觀察到:模型性能和輸出圖像質量在持續(xù)地提高;20B 模型尤其擅長于那些抽象的、需要世界知識的、特定視角的、或符號渲染的 prompt。

          在悉尼歌劇院前的草地上,一只袋鼠穿著橙色衛(wèi)衣,戴著藍色墨鏡,胸前掛著「歡迎朋友」的牌子。


          松鼠把蘋果送給了小鳥。

          文本編碼器預訓練

          該研究在兩個數(shù)據(jù)集上預訓練文本編碼器:具有 BERT [36] 預訓練目標的 Colossal Clean Crawled Corpus (C4) [35],以及具有對比學習目標的圖像文本數(shù)據(jù)。預訓練后,該研究繼續(xù)訓練編碼器和解碼器,在 8192 個離散圖像 token 的詞匯表上使用 softmax 交叉熵損失生成文本到圖像。

          預訓練后的文本編碼器在 GLUE 上的性能與 BERT 相當;然而,在文本到圖像生成的完整編碼器 - 解碼器訓練過程之后,文本編碼器會降級。

          擴展

          該研究在 Lingvo 上來實現(xiàn)模型,并在 CloudTPUv4 硬件上使用 GSPMD 進行擴展,以用于訓練和推理。GSPMD 是一個基于 XLA 編譯器的模型分布系統(tǒng),它允許將 TPU 集群視為單個虛擬設備,并在幾個張量上使用 sharding annotations 來指示編譯器自動分發(fā)數(shù)據(jù)并在數(shù)千個設備上進行計算。

          該研究用數(shù)據(jù)并行性訓練 350M 和 750M 模型。對于 3B 模型,該研究使用 4 路內層模型并行(參見下圖 5)和 128 路數(shù)據(jù)并行。


          下圖 6 為分布式訓練策略整體架構圖:


          實驗

          下表 5 給出了自動圖像質量評估的主要結果。與基于擴散的 Imagen 模型相比,Parti 獲得了相媲美的零樣本 FID 分數(shù)。


          下表 6 為 Parti 字幕評估結果(captioner evaluation [55]),Parti 優(yōu)于其他模型:


          下圖 8 顯示,盡管 Parti 沒有接受過 MS-COCO 字幕或圖像方面的訓練,但表現(xiàn)更好。


          下圖 9 總結了 MS-COCO 零樣本 FID 分數(shù):


          更多內容,請參考原論文。

          參考鏈接:

          https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/


          編輯:于騰凱

          瀏覽 43
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文字幕无码一区二区三区一本久 | 麻豆视频免费在线观看 | 久草热热 | 成人AV色婷婷 | 五月天激情啪啪网 |