<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Meta AI 新研究,統(tǒng)一模態(tài)的自監(jiān)督新里程碑

          共 3425字,需瀏覽 7分鐘

           ·

          2022-02-21 18:34

          大數(shù)據(jù)文摘授權轉(zhuǎn)載自數(shù)據(jù)實戰(zhàn)派

          作者:青蘋果


          雖然 AI 領域不斷涌現(xiàn)出新的突破和進展,卻始終難以逃離單一領域的束縛——一種用于個性化語音合成的新穎方法,卻并不能用于識別人臉的表情。


          為了解決這個問題,不少研究人員正在致力于開發(fā)功能更強大、應用更廣泛的 AI 工具:無論在口頭、書面還是視覺材料上,都可以實現(xiàn)自主學習。


          傳統(tǒng)訓練 AI 模型正確理解某些內(nèi)容的方法是,提供大量(比如數(shù)百萬個)有標記的例子。


          試想一下,一幅標有貓的部分特征的圖片,一段與演講者的對話或摘錄的文本,等等。但這種方法日趨淘汰,因為研究人員發(fā)現(xiàn),手動創(chuàng)建訓練下一代 AI 所需的數(shù)據(jù)庫已不再可行。試想一下,誰想給 5000 萬張貓的照片貼上標簽呢?好吧,可能有幾個人;但是誰又愿意給 5000 萬張常見水果和蔬菜的照片貼上標簽呢?答案明顯是否定的。


          目前,最有前景的一些 AI 系統(tǒng)采用的就是所謂的“自我監(jiān)督”(self - supervision):模型可以在大量無標簽數(shù)據(jù)(比如人們互動的書籍或視頻)中運行,并建立自己對系統(tǒng)規(guī)則的結構化理解。例如,模型通過閱讀 1000 本書,會自主學習語法結構,包括單詞的相對位置,而無需任何人告訴它什么是賓語、冠詞或逗號……這些完全可以從大量的例子中推理得出。


          就在近日,基于上述理論,來自 Meta 的研究團隊發(fā)表了一篇題為“data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language”的論文。


          在這項研究中,開發(fā)人員構建了一個名為 data2vec 的框架,可以跨語音處理、NLP 和計算機視覺(CV, Computer Vision)使用相同的學習方法,極大地克服了單一開發(fā)模式的缺陷,提高了模型的通用性能。


          其核心思想是,在使用標準 Transformer 體系結構的自蒸餾設置中,基于輸入的掩碼視圖(masked view)預測完整輸入數(shù)據(jù)的潛在表示。data2vec 并非是預測特定模式的目標,比如像單詞、視覺 tokens 或語言單元等,而是預測包含來自整個輸入信息的上下文潛在表示。通過在語音識別、圖像分類和自然語言理解的主要基準上進行實驗,有力證明了該方法的技術水平和優(yōu)異性能。


          從直覺上看,這更像是人們學習的方式,這也是研究人員喜歡它的原因之一。但是這些模型仍然趨向于單模態(tài),也就是說,你為建立語音識別的半監(jiān)督學習系統(tǒng)所做的所有工作根本不適用于圖像分析,兩者無疑是大相徑庭。從而,這就更加突顯出 Meta 這項最新研究的意義所在。


          然而從本質(zhì)上看,data2vec 的想法就是建立一個 AI 框架,然后以更抽象的方式學習。這便意味著一切從零開始,你可以準備一些可閱讀的書籍、可掃描的圖像或有聲的讀物供其訓練,以使模型達到學習這些知識的目的。這有點像從一粒種子開始,給它不同植物的生存環(huán)境和營養(yǎng)條件,使其開出不同的花朵,如水仙、三色堇或郁金香。


          總而言之,團隊提出的方法就是將掩碼預測與潛在目標表示的學習相結合,只不過是通過使用多個網(wǎng)絡層作為目標,對后者進行推廣,并表明該方法適用于多種模式。



          具體來說,如 圖 1 所示,團隊成員需要訓練一個現(xiàn)成的可以在教師模式和學生模式中使用的 Transformer 網(wǎng)絡:首先需要構建完整的輸入數(shù)據(jù)表示,其目的是充當學習任務中的目標(教師模式)。接下來,對輸入樣本的掩碼版本進行編碼,用它預測完整的數(shù)據(jù)表示(學生模式)。教師的權重是學生權重指數(shù)衰減的平均值。由于不同的模式有著截然不同的輸入,例如,像素和單詞,因此,團隊采用了特定于模式的特征編碼器和掩碼策略。


          在整體架構上,采用標準 Transformer 體系結構,并沿用先前的工作對輸入數(shù)據(jù)進行特定模式的編碼。


          對于 CV,團隊成員采用了 ViT 策略,將圖像編碼為一系列補丁序列,每個補丁跨越 16x16 像素,輸入到線性變換之中。語音數(shù)據(jù)使用多層一維 CNN 進行編碼,該網(wǎng)絡將 16 kHz 波形映射為 50 Hz 表示。對文本進行預處理以獲得子詞單元,然后通過學習得到的嵌入向量將其嵌入到分布空間中。


          在訓練目標上,基于掩碼樣本的編碼訓練模型,以預測原始未掩碼訓練樣本的模型表示。需要注意的是,團隊僅針對掩碼的時間步長預測模型表示。預測的表示是一種上下文的表示,不僅對特定的時間步長進行編碼,還對來自樣本的其他信息進行編碼,這是由于在 Transformer 網(wǎng)絡中使用了自注意力機制(Self-attention)。因此,相比于預測缺乏上下文信息目標的 BERT、wav2vec 2.0 或BEiT、MAE、SimMIM 和 MaskFeat 模型,這是一條重要的區(qū)別。


          在實驗設置上,研究團隊采用了兩種尺寸的模型:data2vec Base 和 data2vec Large,包含 H=768 或 1024 兩個隱藏維度的 L=12 或 24 的 Transformer blocks。


          在用各種數(shù)據(jù)語料庫對 data2vec 進行訓練后,測試的結果表明,在該模式上,相比于類似規(guī)模的專用模型,它具有一定的競爭力,甚至表現(xiàn)得更加出色。(也就是說,如果所有模型都被限制在 100 兆字節(jié),data2vec 會做得更好——隨著模型規(guī)模的增大,專用模型取勝的幾率會更大。)


          具體而言,為了評估該方法在 CV 領域的應用,團隊成員在 ImageNet-1K 訓練集的圖像上預訓練 data2vec,并使用相同基準的標記數(shù)據(jù)對圖像分類的結果模型進行微調(diào)。結果如表 1 所示,data2vec 優(yōu)于之前使用 ViT-B 和 ViT-L 的研究工作。與預測局部目標的方法相比,在掩碼預測設置中預測上下文的潛在表示可以很好地執(zhí)行。?



          而在語音處理方面,團隊成員使用 Librispeech (LS-960)的 960 小時語音音頻數(shù)據(jù)對 data2vec 進行預訓練。這個數(shù)據(jù)集包含了從英語有聲讀物中獲取的相對清晰的語音音頻,是語音社區(qū)的標準基準。


          為了了解不同資源設置下的性能,團隊使用不同數(shù)量的標記數(shù)據(jù)(從 10 分鐘到 960 小時不等)對自動語音識別模型進行了微調(diào)。表 2 顯示了所有標記數(shù)據(jù)設置的改進,很明顯,標記數(shù)據(jù)為 10 分鐘時,收益達到最大值。



          最后,為了了解 data2vec 在語言方面的表現(xiàn),研究團隊采用了與BERT相同的訓練設置,通過對圖書語料庫和英語維基百科的數(shù)據(jù)進行預訓練。結果如表 3 所示,data2vec 的性能優(yōu)于 RoBERTa 基線。據(jù)團隊所知,這是首個不使用離散單元(單詞,子單詞,字符或字節(jié))作為訓練目標而成功完成預訓練的 NLP 模型。



          此外,研究團隊還進行了一系列的消融實驗,如圖 2 所示,對于大多數(shù)模式來說,預測多個層的平均目標要比只預測最頂層(K = 1)更加穩(wěn)健。使用所有層通常是一個不錯的選擇,并且僅比仔細調(diào)整的 K 值稍差一點?,F(xiàn)代神經(jīng)網(wǎng)絡往往在多個層上構建特征,并在不同的層上提取不同類型的特征。顯然,使用來自多個層的特征既豐富了自監(jiān)督任務,又提高了準確性。



          在一篇博客文章中,該團隊寫道:“這種方法的核心思想是更廣泛地學習。AI 應該能夠?qū)W會做多種類型的任務,包括那些完全不熟悉的任務。


          我們也殷切希望 data2vec 能夠讓我們更接近這樣的一個世界,計算機只需要很少的標記數(shù)據(jù)即可完成任務。”


          除此之外,首席執(zhí)行官馬克·扎克伯格(Mark Zuckerberg)在研究中評論道,“人們通過視覺、聲音和文字的組合來體驗世界,這樣的系統(tǒng)有朝一日可能會像我們一樣理解世界”。


          顯然,這仍然屬于早期研究的范疇,所以不要期待傳說中的“通用人工智能”(GAI, General Artificial Intelligence)會突然出現(xiàn)。


          不過,相比于當下我們所使用的支離破碎的微智能(micro-intelligence),擁有一個具有通用學習結構的 AI,以勝任處理各種領域和數(shù)據(jù)類型,這似乎是一個更完美、更優(yōu)雅的解決方案。



          點「在看」的人都變好看了哦!
          瀏覽 32
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美性爱在线中文字幕 | 午夜精品一区二区三区免费视频 | 亚洲另类区 | 精品欧美色视频网站在线观看 | 亚洲日韩av成人电影在线免费看 |