<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          LeCun預(yù)言的自監(jiān)督模型來了:首個多模態(tài)高性能自監(jiān)督算法,語音、圖像文本全部SOTA

          共 3980字,需瀏覽 8分鐘

           ·

          2022-01-23 23:09

          ↑ 點擊藍(lán)字?關(guān)注極市平臺

          來源丨機(jī)器之心
          編輯丨極市平臺

          極市導(dǎo)讀

          ?

          人類似乎對不同的學(xué)習(xí)模式有著相似的認(rèn)知,機(jī)器也應(yīng)該如此!?>>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿

          自監(jiān)督學(xué)習(xí)能在各種任務(wù)中學(xué)習(xí)到分層特征,并以現(xiàn)實生活中可使用的海量數(shù)據(jù)作為資源,因此是走向更通用人工智能的一種途徑,也是深度學(xué)習(xí)三巨頭之一、圖靈獎得主 Yann LeCun 一直推崇的研究方向。


          LeCun 認(rèn)為:相比于強化學(xué)習(xí),自監(jiān)督學(xué)習(xí)(SSL)可以產(chǎn)生大量反饋,能夠預(yù)測其輸入的任何一部分(如預(yù)測視頻的未來畫面),從而具有廣泛的應(yīng)用前景。


          自監(jiān)督學(xué)習(xí)通過直接觀察環(huán)境來進(jìn)行學(xué)習(xí),而非通過有標(biāo)簽的圖像、文本、音頻和其他數(shù)據(jù)源進(jìn)行學(xué)習(xí)。然而從不同模態(tài)(例如圖像、文本、音頻)中學(xué)習(xí)的方式存在很大差異。這種差異限制了自監(jiān)督學(xué)習(xí)的廣泛應(yīng)用,例如為理解圖像而設(shè)計的強大算法不能直接應(yīng)用于文本,因此很難以相同的速度推動多種模態(tài)的進(jìn)展。


          現(xiàn)在,MetaAI(原 Facebook AI)提出了一種名為 data2vec 的自監(jiān)督學(xué)習(xí)新架構(gòu),在多種模態(tài)的基準(zhǔn)測試中超越了現(xiàn)有 SOTA 方法。



          data2vec 是首個適用于多模態(tài)的高性能自監(jiān)督算法。Meta AI 將 data2vec 分別應(yīng)用于語音、圖像和文本,在計算機(jī)視覺、語音任務(wù)上優(yōu)于最佳單一用途算法,并且在 NLP 任務(wù)也能取得具有競爭力的結(jié)果。此外,data2vec 還代表了一種新的、全面的自監(jiān)督學(xué)習(xí)范式,其提高了多種模態(tài)的進(jìn)步,而不僅僅是一種模態(tài)。data2vec 不依賴對比學(xué)習(xí)或重建輸入示例,除了幫助加速 AI 的進(jìn)步,data2vec 讓我們更接近于制造能夠無縫地了解周圍世界不同方面的機(jī)器。data2vec 使研究者能夠開發(fā)出適應(yīng)性更強的 AI,Meta AI 相信其能夠在多種任務(wù)上超越已有系統(tǒng)。


          • 論文地址:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

          • 項目地址:https://github.com/pytorch/fairseq/tree/main/examples/data2vec


          論文一作 Meta AI 研究員 Alexei Baevski 表示:我們發(fā)布了最新 SSL 方法 data2vec,與單獨訓(xùn)練相比,我們在具有相同預(yù)訓(xùn)練任務(wù)的視覺、語音和 NLP 上獲得了 SOTA。語音和文本的代碼和模型已經(jīng)發(fā)布,視覺模型代碼即將到來!


          即將成為 Meta CTO 的 Boz(領(lǐng)導(dǎo) Reality Labs 團(tuán)隊的 AR、VR、AI、Portal 等)也發(fā)推表示:很高興 data2vec 能夠幫助為跨多種模態(tài)的、更通用的自監(jiān)督學(xué)習(xí)鋪平道路——這項工作還將對我們正在構(gòu)建的 AR 眼鏡開發(fā)情境化 AI 產(chǎn)生重大影響。


          data2vec 是如何工作的?

          大部分 AI 仍然基于監(jiān)督學(xué)習(xí),它只適用于具有標(biāo)注數(shù)據(jù)的任務(wù)。但是,假如我們希望機(jī)器可以完更多的任務(wù),那么收集所有的標(biāo)注數(shù)據(jù)將變得不現(xiàn)實。例如,雖然研究人員在為英語語音和文本創(chuàng)建大規(guī)模標(biāo)注數(shù)據(jù)集方面做了大量工作,但對于地球上成千上萬的語言來說,這樣做是不可行的。

          自監(jiān)督使計算機(jī)能夠通過觀察世界,然后弄清楚圖像、語音或文本的結(jié)構(gòu)來了解世界。不需要專門訓(xùn)練就能對圖像進(jìn)行分類或理解語音的機(jī)器,其擴(kuò)展性也會大大提高。

          data2vec 訓(xùn)練方式是通過在給定輸入的部分視圖的情況下預(yù)測完整輸入模型表示(如下動圖所示):首先 data2vec 對訓(xùn)練樣本的掩碼版本(學(xué)生模型)進(jìn)行編碼,然后通過使用相同模型參數(shù)化為模型權(quán)重的指數(shù)移動平均值(教師模型)對輸入樣本的未掩碼版本進(jìn)行編碼來構(gòu)建訓(xùn)練目標(biāo)表示。目標(biāo)表示對訓(xùn)練樣本中的所有信息進(jìn)行編碼,學(xué)習(xí)任務(wù)是讓學(xué)生在給定輸入部分視圖的情況下預(yù)測這些表示。

          data2vec 以相同的方式學(xué)習(xí)圖像、語音和文本。

          模型架構(gòu)

          Meta AI 使用標(biāo)準(zhǔn)的 Transformer 架構(gòu)(Vaswani 等人,2017):對于計算機(jī)視覺,Meta AI 使用 ViT 策略將圖像編碼為一系列 patch,每個 patch 跨越 16x16 像素,然后輸入到線性變換(Dosovitskiy 等人, 2020;Bao 等人,2021)。語音數(shù)據(jù)使用多層 1-D 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,該網(wǎng)絡(luò)將 16 kHz 波形映射到 50 Hz 表示(Baevski 等人,2020b)。對文本進(jìn)行預(yù)處理以獲得子詞(sub-word)單元(Sennrich 等人,2016;Devlin 等人,2019),然后通過學(xué)習(xí)的嵌入向量將其嵌入到分布空間中。

          data2vec 還可以為不同模態(tài)預(yù)測不同的單元:圖像的像素或視覺 token、文本的單詞以及語音的學(xué)習(xí)清單。像素的集合與音頻波形或文本段落非常不同,因此,算法設(shè)計與特定的模態(tài)緊密聯(lián)系在一起。這意味著算法在每種模式下的功能仍然不同。


          掩碼:在輸入樣本作為 token 序列嵌入后,Meta AI 用學(xué)習(xí)的掩碼嵌入 token 替換掩碼單元的一部分,并將序列饋送到 Transformer 網(wǎng)絡(luò)。對于計算機(jī)視覺,Meta AI 遵循 Bao 等人的分塊掩碼(block-wise)策略;對于語音,Meta AI 掩碼潛在語音表示的跨度 ;對于語言,Meta AI 使用掩碼 token 。

          訓(xùn)練目標(biāo):Meta AI 預(yù)測的表示是上下文表示,不僅對特定的時間步長進(jìn)行編碼,還對來自樣本的其他信息進(jìn)行編碼,這是由于在 Transformer 網(wǎng)絡(luò)中使用了自注意力,這是與 BERT、wav2vec 2.0 或 BEiT、MAE、SimMIM 和 MaskFeat 重要區(qū)別,這些預(yù)測目標(biāo)缺乏上下文信息。

          面向多種模態(tài):data2vec 通過訓(xùn)練模型來簡化其方法,以預(yù)測輸入數(shù)據(jù)的表征。沒有預(yù)測視覺 token、詞、聲音等的方法,而是專注于預(yù)測輸入數(shù)據(jù)的表征,單個算法就可以處理完全不同類型的輸入。這消除了學(xué)習(xí)任務(wù)中對特定模態(tài)目標(biāo)的依賴。

          直接預(yù)測表征并不簡單,它需要為任務(wù)定義一個穩(wěn)健的特征歸一化,以對不同的模態(tài)都是可靠的。該研究使用教師網(wǎng)絡(luò)首先從圖像、文本或語音中計算目標(biāo)表征。然后掩碼部分輸入并使用學(xué)生網(wǎng)絡(luò)重復(fù)該過程,然后預(yù)測教師網(wǎng)絡(luò)的潛在表征。即使只能查看部分信息,學(xué)生模型也必須預(yù)測完整輸入數(shù)據(jù)的表征。教師網(wǎng)絡(luò)與學(xué)生模型相同,但權(quán)重略有不同。

          實驗及結(jié)果

          該研究在 ImageNet 計算機(jī)視覺基準(zhǔn)上測試了該方法,結(jié)果如下。

          用于計算機(jī)視覺的 data2vec:在 ImageNet 基準(zhǔn)上,ViT-B 模型與其他方法的性能比較結(jié)果。

          應(yīng)用于語音的 data2vec:在 LibriSpeech 基準(zhǔn)測試中使用 10h 標(biāo)記數(shù)據(jù)的 Base 模型與其他方法的性能比較結(jié)果,錯誤率越低,性能越好。

          應(yīng)用于文本的 data2vec:在使用原始 BERT 設(shè)置重新訓(xùn)練時,與 RoBERTa 相比,Base 模型在 GLUE 自然語言理解基準(zhǔn)上的性能。分?jǐn)?shù)越高,性能越好。

          通過觀察進(jìn)行學(xué)習(xí)

          自監(jiān)督學(xué)習(xí)在計算機(jī)視覺、視頻等多種模態(tài)方面取得了很大進(jìn)展。這種方法的核心思想是為了更廣泛地學(xué)習(xí),以使人工智能可以學(xué)習(xí)完成各種任務(wù),包括完全未見過的任務(wù)。研究者希望機(jī)器不僅能夠識別訓(xùn)練數(shù)據(jù)中顯示的動物,而且還能通過給定描述識別新生物。

          data2vec 證明其自監(jiān)督算法可以在多種模態(tài)下良好執(zhí)行,甚至比現(xiàn)有最佳算法更好。這為更一般的自監(jiān)督學(xué)習(xí)鋪平了道路,并讓人工智能更接近使用視頻、文本、音頻來學(xué)習(xí)復(fù)雜世界的目標(biāo)。

          由于收集高質(zhì)量數(shù)據(jù)成本很高,因此該研究還希望 data2vec 能讓計算機(jī)僅用很少的標(biāo)記數(shù)據(jù)來完成任務(wù)。data2vec 是邁向更通用人工智能的重要一步,未來有望消除對特定模態(tài)特征提取器的需求。

          參考鏈接:
          https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/


          如果覺得有用,就請分享到朋友圈吧!

          △點擊卡片關(guān)注極市平臺,獲取最新CV干貨

          公眾號后臺回復(fù)“transformer”獲取最新Transformer綜述論文下載~


          極市干貨
          課程/比賽:珠港澳人工智能算法大賽保姆級零基礎(chǔ)人工智能教程
          算法trick目標(biāo)檢測比賽中的tricks集錦從39個kaggle競賽中總結(jié)出來的圖像分割的Tips和Tricks
          技術(shù)綜述:一文弄懂各種loss function工業(yè)圖像異常檢測最新研究總結(jié)(2019-2020)


          #?CV技術(shù)社群邀請函?#

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


          即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          覺得有用麻煩給個在看啦~??
          瀏覽 74
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美aaa日韩aaa国产 | 大鳮巴久久久久久久久 | 成人黄网站 免费视频 | 黄色一级片日韩学生妹无套无码内射视频 | 骚货网站 |