<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          華為諾亞開源首個億級中文多模態(tài)數(shù)據(jù)集-悟空,填補中文NLP社區(qū)一大空白

          共 4512字,需瀏覽 10分鐘

           ·

          2022-02-26 06:25

          選自arXiv
          作者:Jiaxi Gu等
          機器之心編譯
          編輯:Juniper
          華為諾亞方舟實驗室的研究者提出了一個大規(guī)模的中文的跨模態(tài)數(shù)據(jù)庫 ——「悟空」,并在此基礎(chǔ)上對不同的多模態(tài)預(yù)訓(xùn)練模型進(jìn)行基準(zhǔn)測試,有助于中文的視覺語言預(yù)訓(xùn)練算法開發(fā)和發(fā)展。


          在大數(shù)據(jù)上預(yù)訓(xùn)練大規(guī)模模型,對下游任務(wù)進(jìn)行微調(diào),已經(jīng)成為人工智能系統(tǒng)的新興范式。BERT 和 GPT 等模型在 NLP 社區(qū)中越來越受歡迎,因為它們對廣泛的下游任務(wù)甚至零樣本學(xué)習(xí)任務(wù)具有很高的可遷移性,從而產(chǎn)生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP 進(jìn)一步將這一范式擴展到視覺語言聯(lián)合預(yù)訓(xùn)練 (VLP) 領(lǐng)域,并在各種下游任務(wù)上顯示出優(yōu)于 SOTA 方法的結(jié)果。這一有希望的方向引起了行業(yè)和研究人員的極大關(guān)注,將其視為通向下一代 AI 模型的途徑。

          促成 VLP 模型成功的原因有兩個。一方面,更高級的模型架構(gòu)(如 ViT/BERT)和訓(xùn)練目標(biāo)(如對比學(xué)習(xí))通常能夠提升模型泛化能力和學(xué)得表示的穩(wěn)健性。另一方面,由于硬件和分布式訓(xùn)練框架的進(jìn)步,越來越多的數(shù)據(jù)可以輸入到大規(guī)模模型中,來提高模型的泛化性、可遷移性和零樣本能力。在視覺或者語言任務(wù)中,先在大規(guī)模數(shù)據(jù)(例如圖像分類中的 JFT-300M、T5 中的 C4 數(shù)據(jù)集)上預(yù)訓(xùn)練,之后再通過遷移學(xué)習(xí)或者 prompt 學(xué)習(xí)已被證明對提高下游任務(wù)性能非常有用。此外,最近的工作也已經(jīng)顯示了 VLP 模型在超過 1 億個來自網(wǎng)絡(luò)的有噪聲圖像 - 文本對上訓(xùn)練的潛力。

          因此,在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的 VLP 模型的成功促使人們不斷地爬取和收集更大的圖文數(shù)據(jù)集。下表 1 顯示了 VLP 領(lǐng)域中許多流行的數(shù)據(jù)集的概述。諸如 Flickr30k、SBU Captions 和 CC12M 等公開可用的視覺語言(英語)數(shù)據(jù)集的樣本規(guī)模相對較小(大約 1000 萬),而規(guī)模更大的是像 LAION-400M 的數(shù)據(jù)集。但是,直接使用英文數(shù)據(jù)集來訓(xùn)練模型會導(dǎo)致中文翻譯任務(wù)的性能大幅下降。比如,大量特定的中文成語和俚語是英文翻譯無法覆蓋的,而機器翻譯往往在這些方面會帶來錯誤,進(jìn)而影響任務(wù)執(zhí)行。


          目前,社區(qū)缺乏大規(guī)模公開可用的中文數(shù)據(jù)集,不僅導(dǎo)致社區(qū)發(fā)展受阻,而且每項工作都使用一個私密的大型數(shù)據(jù)集來實現(xiàn),達(dá)到一個其它工作無法公平比較的驚人性能。

          為了彌補這一差距,華為諾亞方舟實驗室的研究者發(fā)布了一個名為「悟空」的大型中文跨模態(tài)數(shù)據(jù)集,其中包含來自網(wǎng)絡(luò)的 1 億個圖文對。為了保證多樣性和泛化性,悟空數(shù)據(jù)集是根據(jù)一個包含 20 萬個高頻中文單詞列表收集的。本文還采用基于圖像和基于文本的過濾策略來進(jìn)一步完善悟空數(shù)據(jù)集,使其成為了迄今為止最大的中文視覺語言跨模態(tài)數(shù)據(jù)集。研究者分析了該數(shù)據(jù)集,并表明它涵蓋了廣泛的視覺和文本概念。


          • 論文地址:https://arxiv.org/pdf/2202.06767.pdf

          • 數(shù)據(jù)集地址:https://wukong-dataset.github.io/wukong-dataset/benchmark.html


          研究者還進(jìn)一步發(fā)布了一組使用不同架構(gòu)(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)大型預(yù)訓(xùn)練模型。本文的主要貢獻(xiàn)如下:

          • 發(fā)布了具有 1 億個圖文對的大規(guī)模視覺和中文語言預(yù)訓(xùn)練數(shù)據(jù)集,涵蓋了更全面的視覺概念;

          • 發(fā)布了一組使用各種流行架構(gòu)和方法預(yù)訓(xùn)練好的大規(guī)模視覺 - 語言模型,并提供針對已發(fā)布模型的全面基準(zhǔn)測試;

          • 發(fā)布的預(yù)訓(xùn)練模型在數(shù)個中文基準(zhǔn)測試任務(wù),例如由 17 個數(shù)據(jù)集組成的零樣本圖像分類任務(wù)和由 5 個數(shù)據(jù)集組成的圖像文本檢索任務(wù),表現(xiàn)出了最優(yōu)性能。


          「悟空」數(shù)據(jù)集

          研究者構(gòu)建了一個名為悟空的新數(shù)據(jù)集,該數(shù)據(jù)集包含從網(wǎng)絡(luò)收集的 1 億個圖文對。為了涵蓋足夠多樣的視覺概念,悟空數(shù)據(jù)集是由包含 20 萬個詞條的查詢列表里收集的。這個基礎(chǔ)查詢列表取自 Yan Song 等人的論文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根據(jù)華為的海量新聞文本語料庫中出現(xiàn)的中文單詞和短語的頻率進(jìn)行過濾后所得。

          查詢列表建好后,研究者在百度圖片搜索每個查詢,以獲取圖片 URL 列表和相應(yīng)的標(biāo)題信息。為了保持不同查詢結(jié)果間的平衡,他們每個查詢最多搜索 1000 個樣本。然后使用先前獲得的圖像 URL 下載圖像,最終共收集了 1.66 億個圖文對。然后按照慣例,研究者通過下文的一系列過濾策略來構(gòu)建最終的悟空數(shù)據(jù)集。下圖 2 顯示了悟空數(shù)據(jù)集中的一些樣本。


          基于圖像的過濾

          研究者首先根據(jù)圖像的大小和長寬比對數(shù)據(jù)進(jìn)行過濾。只保留長或?qū)挸^ 200 像素且長寬比不超過 3 的圖像。這種方式過濾掉了太小、太高或太寬的圖像,因為這些圖像在預(yù)訓(xùn)練期間經(jīng)過上采樣和方形裁剪等圖像增強手段后,可能變成低分辨率。

          基于文本的過濾

          其次,為了使選擇的樣本具有對應(yīng)圖像的高質(zhì)量中文描述,研究者根據(jù)圖像所附文本的語言、長度和頻率對數(shù)據(jù)進(jìn)行進(jìn)一步過濾。具體來說,他們首先檢查了語言和長度,保留了包含至少一個但少于 32 個漢字的句子。同時還會丟棄無意義的圖像描述,例如「000.jpg」。之后,與太多圖片配對的文字通常與圖片內(nèi)容無關(guān),例如「查看源網(wǎng)頁」(View source page)、「展開全文」(Expand text)、「攝影部落」(Photography community)。實際中,研究者將此閾值設(shè)置為 10,即丟棄掉在收集的整個語料庫中出現(xiàn)超過 10 次的圖文對。

          為了保護(hù)文本中出現(xiàn)的個人隱私,研究者將人名替換為特殊標(biāo)記「< 人名 >」,此外,他們還構(gòu)建了一個中文敏感詞列表,包含敏感詞的圖文對也被丟棄。

          應(yīng)用上述過濾策略后,研究者最終得到一個約 1 億對的數(shù)據(jù)集。下表 2 顯示了數(shù)據(jù)集的統(tǒng)計量:數(shù)據(jù)集文本中有 20,442 個唯一 token,每個描述中的平均 token 數(shù)為 22。


          在下圖 3 中,研究者可視化了數(shù)據(jù)集中單詞(由一個或多個 token 組成)的分布。然后,他們使用中文文本分詞工具 Jieba 來截取單詞并構(gòu)建數(shù)據(jù)集的詞云。


          方法架構(gòu)

          文本 - 圖像聯(lián)合對齊

          與最近經(jīng)過充分驗證的方法類似,研究者采用了對比預(yù)訓(xùn)練架構(gòu),如下圖 1 所示。他們使用一個帶有基于 Transformer 的文本和圖像編碼器的雙流模型。這兩個編碼器將文本和視覺輸入 token 轉(zhuǎn)換為相同維度的嵌入。在這個學(xué)習(xí)到的聯(lián)合嵌入空間中,研究者使用對比損失來鼓勵成對的圖像和文本具有相似的嵌入,而不成對的具有不同的嵌入。


          模型架構(gòu)

          由于視覺和文本模態(tài)的編碼器是解耦的,因此可以為這兩種模態(tài)探索不同的編碼器架構(gòu)。研究者試驗了三種視覺編碼器變體(即 ResNet、Vision Transformer 和 Swin Transformer)以及一個單一的類 BERT 文本編碼器來訓(xùn)練中文 VLP 模型。

          預(yù)訓(xùn)練目標(biāo)

          跨模態(tài)對比學(xué)習(xí)是一種從成對的圖像 - 文本數(shù)據(jù)中訓(xùn)練模型的特別有效的方法,它可以通過區(qū)分成對和不成對的樣本同時學(xué)習(xí)兩種模態(tài)的表示。研究者遵循 FILIP(Yao 等人,2022)中的公式標(biāo)記,使用去定義圖像樣本集合,同時代表文本數(shù)據(jù)。給定一個圖像樣本和一個文本樣本,該模型的目標(biāo)是讓聯(lián)合多模態(tài)空間中的配對的圖像和文本表示接近,不配對的則遠(yuǎn)離。

          在這項工作中,研究者探索了兩種衡量圖像和文本之間相似度的方法。圖像和文本的學(xué)得表示分別標(biāo)記為。這里,n_1 和 n_2 是每個圖片和文本中的(未填充的)詞 token 的數(shù)量。


          LiT-tuning

          研究者受到了最近提出的一種微調(diào)范式 LiT-tuning(Locked-image Text tuning)的啟發(fā),該范式表明權(quán)重固定的圖像編碼器和可學(xué)習(xí)的文本編碼器在 VLP 模型中效果最好。他們在對比學(xué)習(xí)設(shè)置中也采用了同樣的方式,即只更新文本編碼器的權(quán)重,而不更新圖像編碼器的權(quán)重。

          具體而言,研究者采用的 LiT-tuning 方法旨在教一個中文的文本編碼器從一個現(xiàn)有的圖像編碼器中讀取合適的表示,該圖像編碼器是在英文數(shù)據(jù)集上預(yù)訓(xùn)練過。他們還為每個編碼器添加了一個可選的可學(xué)習(xí)線性變換層,它將兩種模式的表示映射到相同的維度。LiT-tuning 之所以效果很好,是因為它解耦了用于學(xué)習(xí)圖像特征和視覺語言對齊的數(shù)據(jù)源和技術(shù)(Zhai 等人,2021b)。并且,圖像描述器事先使用相對干凈或(半)手動標(biāo)記的圖像進(jìn)行了良好的預(yù)訓(xùn)練。

          研究者將這一想法擴展到多語言數(shù)據(jù)源,并嘗試將在英文數(shù)據(jù)源上預(yù)訓(xùn)練的固定了的圖像編碼器和可訓(xùn)練的中文文本編碼器對齊。此外,LiT-tuning 方法顯著加快了訓(xùn)練過程并減少了內(nèi)存需求,因為它不需要為視覺編碼器計算梯度。

          實驗結(jié)果

          下表 3 描述了模型參數(shù)和視頻編碼器的細(xì)節(jié)。


          零樣本圖像分類。研究者在 17 個零樣本圖像分類任務(wù)上評估預(yù)訓(xùn)練模型。零樣本圖像分類的結(jié)果如下表 5 所示。他們比較了使用不同視覺編碼器的多個 LiT -tuning 模型,即從 CLIP 或 Swin Transformer 加載現(xiàn)有的視覺編碼器并在訓(xùn)練階段固定它們的權(quán)重。結(jié)果發(fā)現(xiàn),使用 token 水平的相似度比使用全局相似度會帶來更顯著的改進(jìn)。


          圖文檢索任務(wù)。研究者在兩個子任務(wù),即以圖搜文和以文搜圖上做了評估。下表 6 和表 7 分別顯示了零樣本設(shè)定和可以微調(diào)的圖文檢索的結(jié)果。對于零樣本設(shè)置,相比其它模型,Wukong_ViT 在 4 個數(shù)據(jù)集中的 3 個上取得了最好的結(jié)果,而 Wukong_ViT-500M 在更大的 MUGE 數(shù)據(jù)集上取得了最好的結(jié)果。對于微調(diào)設(shè)置,Wukong_ViT-500M 則在除 AIC-ICC 之外的所有數(shù)據(jù)集上都取得了最好的結(jié)果,其中 Wukong_ViT 效果最好。


          詞匯 - 圖塊對齊的可視化。研究者使用預(yù)訓(xùn)練模型 Wukong_ViT 和 Wukong_Swin 進(jìn) 行可視化。如圖 4 所示,其中可視化來自中文的 ImageNet 的六個標(biāo)簽(即豆娘、救生艇、蜂鳥、平板手機、教堂和電風(fēng)扇)的圖像。然后應(yīng)用與 FILIP(Yao 等人,2022)相同的可視化方法來對齊文本和圖塊 token。

          從下圖 4 中,研究者發(fā)現(xiàn)兩種模型都能夠預(yù)測目標(biāo)物體的圖像塊。對于具有更多圖像塊的 Wukong_ViT,這種詞匯 - 圖塊對齊比 Wukong_Swin 更加細(xì)粒度。


          ??THE END?

          轉(zhuǎn)載請聯(lián)系原公眾號獲得授權(quán)

          投稿或?qū)で髨蟮溃篶[email protected]


          點個在看 paper不斷!

          瀏覽 26
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品97 | 影音先锋成人在线 | 精品无码一区二区三区免费 | 超碰人人操97 | 精品久久中文娱乐网 |