<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          何愷明新工作!加入MIT的首篇論文!打破自回歸圖像生成瓶頸,奧賽金牌得主參與!

          共 2915字,需瀏覽 6分鐘

           ·

          2024-06-26 10:05

          點擊上方小白學視覺”,選擇加"星標"或“置頂

              
          重磅干貨,第一時間送達
          作者丨21#
          來源丨夕小瑤科技說
          編輯丨極市平臺

          極市導讀

           

          巧妙地借鑒了擴散模型的思想,成功地將自回歸模型從矢量量化的束縛中解放出來,實現(xiàn)了連續(xù)值生成圖像的突破。

          近日,深度學習領域的杰出研究者何愷明及其團隊又放了個大招,推出其團隊最新研究工作,在AI研究領域引起了廣泛關注。

          何愷明2024年加入麻省理工學院(MIT),在電氣工程與計算機科學系擔任教職。

          何愷明團隊聯(lián)合Google DeepMind和清華大學,首次提出了一種無需矢量量化的自回歸圖像生成方法,徹底顛覆了人們對自回歸生成技術的認知。

          在傳統(tǒng)的自回歸圖像生成中,矢量量化一直是不可或缺的一環(huán)。然而,這種方法的局限性在于,它依賴于離散的tokenizer,這在一定程度上限制了生成圖像的靈活性和多樣性。

          而今,何愷明團隊巧妙地借鑒了擴散模型的思想,成功地將自回歸模型從矢量量化的束縛中解放出來,實現(xiàn)了連續(xù)值生成圖像的突破。

          一起看看這一創(chuàng)新是如何提高自回歸圖像生成的質量和多樣性的,以及是如何改變AI領域的未來走向!

          論文題目:
          Autoregressive Image Generation without Vector Quantization

          論文鏈接:
          https://arxiv.org/abs/2406.11838

          擴散損失引入自回歸圖像生成

          自回歸模型在自然語言處理中非常成功,人們普遍認為它們需要離散表示。因此,在將自回歸模型應用于圖像生成等連續(xù)值領域時,研究主要集中在如何將圖像數(shù)據(jù)離散化,而不是直接在連續(xù)空間上建模。

          但自回歸的本質在于基于前面的token作為輸入來預測序列中的下一個token,不禁疑惑:難道連續(xù)的token值就不能實現(xiàn)上述過程了嗎?

          何凱明團隊將擴散過程中的損失函數(shù)引入到自回歸圖像生成過程,引入了擴散損失(Diffusion Loss)。

          自回歸模型學習不同token間的關聯(lián)性,而擴散過程通過損失函數(shù)學習單個token的概率分布。具體來講,自回歸模型會根據(jù)前面的token預測一個向量z作為小型去噪網(wǎng)絡(如MLP)的條件,通過損失函數(shù)不斷學習連續(xù)值x的潛在分布 并從中采樣。

          統(tǒng)一自回歸和掩碼生成模型的創(chuàng)新框架

          何愷明團隊還提出了一種統(tǒng)一標準自回歸模型(AR)和掩碼生成模型(MG)的廣義自回歸框架,具體表現(xiàn)為掩碼自回歸(MAR)模型。該模型利用雙向注意力機制,在隨機順序下同時預測多個輸出標記,同時保持自回歸的特性。這一方法顯著提高了生成速度。

          傳統(tǒng)的因果注意力機制,它通過限制每個標記只關注之前的標記來實現(xiàn)自回歸。而雙向注意力機制,它允許每個標記在序列中看到所有其他標記。掩碼標記在中間層添加了位置嵌入,這種設置只在未知標記上計算損失,但允許序列中的標記之間進行全面的交流,從而在推理時能夠逐個生成標記。同時,它還允許我們同時預測多個標記。

          自回歸+擴散  vs 自回歸 vs 擴散

          作為自回歸模型和擴散模型的融合,其方法極具有創(chuàng)新性,那與傳統(tǒng)自回歸生成和擴散生成相比,性能如何呢?

          生成快且效果精

          相比于傳統(tǒng)的自回歸(AR)模型和擴散Transformer(DiT)模型,MAR模型在使用擴散損失后,能夠更快速且更準確地生成圖像。具體來說,MAR模型的生成速度小于0.3秒每張圖像,且在ImageNet 256×256數(shù)據(jù)集上的FID得分小于2.0,體現(xiàn)了其高效性和高質量。

          與領先模型相較毫不遜色

          不同模型規(guī)模下,經(jīng)過800個周期的訓練,此方案展示了良好的擴展性。與當前的領先模型相比,此方法也毫不遜色。在不使用CFG的情況下,MAR模型的FID為2.35,顯著優(yōu)于其他基于標記的方法。最佳條目的FID為1.55,與領先模型相比具有競爭力。

          總結

          何愷明團隊在圖像生成領域的強有力結果表明,自回歸模型或其拓展版本不僅僅是語言建模的有力工具,它們在其他領域也有很大的潛力。這些模型不必受限于向量量化表示,這意味著它們可以更有效地處理連續(xù)值表示的數(shù)據(jù)。

              
          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 59
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产又粗又长又硬免费视频 | 大逼逼久久网 | 久草五月 | 亚洲热久久 | 亚洲干|