華為諾亞開源首個億級中文多模態(tài)數(shù)據(jù)集-悟空,填補中文NLP社區(qū)一大空白
華為諾亞方舟實驗室的研究者提出了一個大規(guī)模的中文的跨模態(tài)數(shù)據(jù)庫 ——「悟空」,并在此基礎(chǔ)上對不同的多模態(tài)預(yù)訓(xùn)練模型進(jìn)行基準(zhǔn)測試,有助于中文的視覺語言預(yù)訓(xùn)練算法開發(fā)和發(fā)展。


論文地址:https://arxiv.org/pdf/2202.06767.pdf
數(shù)據(jù)集地址:https://wukong-dataset.github.io/wukong-dataset/benchmark.html
發(fā)布了具有 1 億個圖文對的大規(guī)模視覺和中文語言預(yù)訓(xùn)練數(shù)據(jù)集,涵蓋了更全面的視覺概念;
發(fā)布了一組使用各種流行架構(gòu)和方法預(yù)訓(xùn)練好的大規(guī)模視覺 - 語言模型,并提供針對已發(fā)布模型的全面基準(zhǔn)測試;
發(fā)布的預(yù)訓(xùn)練模型在數(shù)個中文基準(zhǔn)測試任務(wù),例如由 17 個數(shù)據(jù)集組成的零樣本圖像分類任務(wù)和由 5 個數(shù)據(jù)集組成的圖像文本檢索任務(wù),表現(xiàn)出了最優(yōu)性能。




去定義圖像樣本集合,同時
代表文本數(shù)據(jù)。給定一個圖像樣本
和一個文本樣本
,該模型的目標(biāo)是讓聯(lián)合多模態(tài)空間中的配對的圖像和文本表示接近,不配對的則遠(yuǎn)離。
和
。這里,n_1 和 n_2 是每個圖片和文本中的(未填充的)詞 token 的數(shù)量。



??THE END?
轉(zhuǎn)載請聯(lián)系原公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶[email protected]

點個在看 paper不斷!
評論
圖片
表情
