<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          更精準地生成字幕!哥大&Facebook開發(fā)AI新框架,多模態(tài)融合,性能更強

          共 2724字,需瀏覽 6分鐘

           ·

          2021-02-18 02:06

          子豪 發(fā)自 凹非寺
          量子位 報道 | 公眾號 QbitAI

          現(xiàn)在,給視頻添加字幕,又有了新玩法。

          這就是Facebook、哥倫比亞大學等大學的新研究,共同開發(fā)了一個框架——Vx2Text

          這個框架可以幫助我們,從視頻、音頻等輸入內(nèi)容中提取信息,再以人類可以理解的文字,生成字幕或者回答問題等。

          并且,與之前的最新技術(shù)相比,Vx2Text在三個任務中均展現(xiàn)出最佳的性能。

          Vx2Text究竟是什么?一起往下看。

          技術(shù)原理

          Vx2Text是從多模態(tài)輸入(由視頻、文本、語音或音頻組成)中提取信息,再以人類可以理解的方式,生成自然語言文本(例如:字幕、回答問題等)。

          研究團隊通過引入大型基準,來評估Vx2Text解釋信息和生成自然語言的能力。

          這些基準主要包括:用于圖像或視頻字幕、問答(QA)和視聽對話的數(shù)據(jù)集。

          為了在這些基準測試中表現(xiàn)出色,Vx2Text必須完成幾個目標

          • 從每個模態(tài)中提取重要信息;

          • 有效地組合不同線索,以解決給定的問題;

          • 以可理解的文本形式,將結(jié)果生成和呈現(xiàn)出來。

          并且,將這些目標嵌入一個統(tǒng)一的、端到端的可訓練的框架中。

          整個過程可以分為三步

          • 多模態(tài)輸入及識別;
          • 將不同模態(tài)嵌入同一語言空間;
          • 融合多模態(tài)信息。


          Vx2Text框架圖解

          具體而言:

          輸入及識別

          Vx2Text接收視頻、音頻和語音作為輸入。利用特定模態(tài)分類器,來識別輸入的聲音或動作等,得到相應類別的文本信息。

          嵌入

          通過可區(qū)分標記化,將識別得到的不同模態(tài)的文本信息,嵌入同一語言空間中,以便執(zhí)行多模態(tài)融合,實現(xiàn)端到端的訓練。

          多模態(tài)融合,簡單來說就是,將從文本、圖像、語音、視頻等多種形式的數(shù)據(jù)和信息,進行轉(zhuǎn)換和融合。

          先前不同模態(tài)輸入信號的組合方法,大多依賴于額外的跨模態(tài)融合模塊,繁重且計算成本高。

          而使用Vx2Text,無需設(shè)計專門的跨模態(tài)網(wǎng)絡模塊,這種設(shè)計不僅簡單得多,還可以帶來更好的性能。

          融合

          采用通用的編-解碼器語言模型,即自回歸解碼器模型,來融合多模態(tài)信息,以生成文本。

          不同于以前的僅編碼器模型,這一模型具有通用性,能直接適用于“不同模態(tài)生成文本”問題,無縫處理兩種類型的任務,無需為每個任務設(shè)計專門的架構(gòu)。

          處理生成式任務,需要通過解碼生成連貫的句子;
          處理區(qū)分式任務,則需將候選答案集輸入,在概率分布下,選擇最高概率的答案。

          實驗

          對Vx2Text在三個任務中的有效性進行評估:包括視頻問答、視聽場景感知對話和視頻字幕。
          分別使用三個基準數(shù)據(jù)集:TVQA、AVSD和TVC。

          評估每種模態(tài)的重要性

          使用不同的輸入組合,評估各個模態(tài)對基于視頻的文本生成性能的影響。結(jié)果表明:

          • 在AVSD和TVQA數(shù)據(jù)集中,每種模態(tài)都有助于性能提升,對于AVSD尤其明顯。

          • 在AVSD的所有指標下,增加視頻模態(tài)的都會帶來性能提升;TVQA數(shù)據(jù)集也體現(xiàn)這種趨勢。

          • 此外,問答的歷史記錄對AVSD的性能,也起到十分積極的作用。這表明模型在對話中,成功合并了先前問答的信息。

          可區(qū)分標記化的的有效性

          將不同的模態(tài)融合機制(包括:多模態(tài)特征嵌入、凍結(jié)標記化、可區(qū)分標記化),在AVSD和TVQA中的性能進行比較,得到結(jié)論:

          • 與多模式特征嵌入相比,凍結(jié)標記化實現(xiàn)了更好的性能。

          • 可區(qū)分標記化通過優(yōu)化整個端到端模型,進一步提高了這兩項任務的性能,在很大程度上優(yōu)于其他方案

          生成模型的優(yōu)勢

          對四個模型的準確性進行評估,得到結(jié)論:

          • 對于所有大小的訓練集,與去掉解碼器的系統(tǒng)判別版本(Discriminative)相比,默認的Vx2Text模型(Generative)都更準確。

          • 此外,生成模型可以使用相同的模型進行多任務學習,無需更改架構(gòu)。這樣能夠進一步提高準確性,尤其是對于小型訓練集。

          與最新技術(shù)的比較

          Vx2Text(這里使用凍結(jié)標記化,而非可區(qū)分標記化)與最新技術(shù),在AVSD上進行比較,得到結(jié)論:

          • 在帶有和不帶有字幕輸入兩種情況下,Vx2Text模型都取得了最好的效果。證明了這一模態(tài)集成簡單方案的有效性。

          Vx2Text與最新技術(shù),在TVQA上進行比較(數(shù)字代表Top-1準確性(%)),得到結(jié)論:

          • 在HERO利用額外的樣本進行預訓練的情況下,Vx2Text仍然實現(xiàn)了比HERO版本更好的性能。

          Vx2Text與最新技術(shù),在TVC上進行對比,得到結(jié)論:

          • 在不使用額外樣本進行預訓練的情況下,Vx2Text展現(xiàn)出最佳的性能。

          定性結(jié)論

          AVSD驗證集上的視聽場景感知對話任務,Vx2Text生成答案示例

          TVC驗證集上的視頻字幕任務,Vx2Text生成文本描述示例

          雖然輸入內(nèi)容中包含一些文本,例如:對話歷史記錄或語音記錄,但生成的文本還包含了來自其他模態(tài)的信息。例如,上圖中模型成功地識別了動作,例如,幫助站起來等。

          實驗表明:Vx2Text能夠在多模態(tài)輸入中,為視聽場景感知對話和視頻字幕,生成逼真自然的文本

          Vx2Text可以用于為錄制的視頻或流媒體視頻添加字幕,以及服務YouTube和Vimeo等視頻共享平臺,依靠字幕以及其他信號來改善搜索結(jié)果的相關(guān)性。

          作者

          論文一作藺旭東,目前是哥倫比亞大學計算機科學專業(yè)的博士生,主要研究領(lǐng)域是嵌入學習、視頻分析和生成模型,本科就讀于清華大學。這項研究是在其擔任Facebook AI實習生時完成的。

          藺旭東(來自其個人主頁)

          想要了解更多細節(jié),可戳文末鏈接查看~

          參考鏈接:
          https://arxiv.org/abs/2101.12059
          https://venturebeat.com/2021/02/02/researchers-Vx2Text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/

          —??—

          本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。

          推薦閱讀

          張藝謀鏡頭里的科技力量:為世界注入5G之心

          中國官方唯一無人車路測報告一出爐,百度股價又漲了

          打擊線下刷單,AI已經(jīng)動手了 | WWW2021研討會最佳論文獎

          加入AI社群,拓展你的AI行業(yè)人脈

          量子位「AI社群」招募中!歡迎AI從業(yè)者、關(guān)注AI行業(yè)的小伙伴們掃碼加入,與50000+名好友共同關(guān)注人工智能行業(yè)發(fā)展&技術(shù)進展

          量子位?QbitAI · 頭條號簽約作者

          ?\\'?\\' ? 追蹤AI技術(shù)和產(chǎn)品新動態(tài)

          一鍵三連「分享」、「點贊」和「在看」

          科技前沿進展日日相見~


          瀏覽 64
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大香焦伊人网 | 外国女人操逼在线视频 | 国产 丝袜 人妻 制服 一区 | 国産精品久久久久久久 | 青娱视频亚洲 |