<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AI識(shí)圖驢唇不對馬嘴?Google AI:利用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性

          共 2435字,需瀏覽 5分鐘

           ·

          2021-05-15 04:57



            新智元報(bào)道  

          來源:Google AI Blog
          編輯:好困
          【新智元導(dǎo)讀】圖像描述是計(jì)算機(jī)視覺、自然語言處理和機(jī)器學(xué)習(xí)的綜合問題。近日,谷歌AI提出了一個(gè)新的訓(xùn)練集,可以有效提升圖像和文本語義匹配的相似性。

          如果一張圖片可以用一千個(gè)單詞描述,那么圖片中所能被描繪的對象之間便有如此多的細(xì)節(jié)和關(guān)系。我們可以描述狗皮毛的質(zhì)地,要被追逐的飛盤上的商標(biāo),剛剛?cè)舆^飛盤的人臉上的表情,等等。


          現(xiàn)階段,包含文本描述及其相應(yīng)圖像的描述的數(shù)據(jù)集(例如MS-COCO和Flickr30k)已被廣泛用于學(xué)習(xí)對齊的圖像和文本表示并建立描述模型。

          然而,這些數(shù)據(jù)集的跨模態(tài)關(guān)聯(lián)有限:圖像未與其他圖像匹配,描述僅與同一張圖片的其他描述匹配,存在圖像與描述的匹配但未被標(biāo)記為匹配項(xiàng),并且沒有標(biāo)簽標(biāo)明何時(shí)圖像與描述之間是不匹配的。

          為了彌補(bǔ)這一評(píng)估空白,我們提出了「交叉描述:針對MS-COCO的擴(kuò)展的模內(nèi)和模態(tài)語義相似性判斷」。

          縱橫交錯(cuò)描述(CxC)數(shù)據(jù)集使用圖像-文本,文本-文本和圖像-圖像對的語義相似性評(píng)級(jí)擴(kuò)展了MS-COCO的開發(fā)和測試范圍。

          評(píng)級(jí)標(biāo)準(zhǔn)基于「語義文本相似性」,這是一種在短文本對之間廣泛存在的語義相關(guān)性度量,我們還將其擴(kuò)展為包括對圖像的判斷。我們已經(jīng)發(fā)布了CxC的評(píng)分以及將CxC與現(xiàn)有MS-COCO數(shù)據(jù)合并的代碼。

          創(chuàng)建CxC數(shù)據(jù)集

          CxC數(shù)據(jù)集擴(kuò)展了MS-COCO評(píng)估拆分,并在模態(tài)內(nèi)和模態(tài)之間具有分級(jí)的相似性關(guān)聯(lián)。鑒于隨機(jī)選擇的圖像和描述匹配的相似性不高,我們提出了一種方法來對項(xiàng)目進(jìn)行選擇,通過人工評(píng)級(jí)從而產(chǎn)生一些具有較高相似性的新匹配。為了減少所選匹配對用于查找它們的模型的依賴性,我們引入了一種間接采樣方案,其中我們使用不同的編碼方法對圖像和描述進(jìn)行編碼,并計(jì)算相同模態(tài)項(xiàng)匹配之間的相似度進(jìn)而生成相似度矩陣。圖像使用Graph-RISE嵌入進(jìn)行編碼,而描述則使用兩種方法進(jìn)行編碼-基于GloVe嵌入的通用語句編碼器(USE)和平均單詞袋(BoW)。 

          由于每個(gè)MS-COCO示例都有五個(gè)輔助描述,因此我們平均每個(gè)輔助描述編碼以創(chuàng)建每個(gè)示例的單個(gè)表征,從而確保所有描述對都可以映射到圖像。


          上:使用平均輔助描述編碼構(gòu)造的文本相似度矩陣(每個(gè)單元格對應(yīng)一個(gè)相似度分?jǐn)?shù)),每個(gè)文本條目對應(yīng)于單個(gè)圖像。下:數(shù)據(jù)集中每個(gè)圖像的圖像相似度矩陣。

          我們從文本相似度矩陣中選擇兩個(gè)具有較高計(jì)算相似度的描述,然后獲取它們的每個(gè)圖像,從而生成一對新的圖像,這些圖像在外觀上不同,但根據(jù)描述的相似。

          例如,「一只害羞地向側(cè)面看的狗」和「一只黑狗抬起頭來享受微風(fēng)」具有相當(dāng)高的模型相似性,因此下圖中兩只狗的對應(yīng)圖像 可以選擇圖像相似度等級(jí)。此步驟也可以從兩個(gè)具有較高計(jì)算相似度的圖像開始,以產(chǎn)生一對新的描述。

          上:根據(jù)描述相似度來選擇圖像匹配。下:根據(jù)描圖像的相似度來選擇描述匹配。

          通過使用現(xiàn)有的圖像標(biāo)題對在模態(tài)之間進(jìn)行鏈接來做到這一點(diǎn)。例如,如果人對一個(gè)描述匹配樣本ij的評(píng)級(jí)為高度相似,我們從樣本i中選擇圖像,并從樣本j中選擇描述,以獲得一個(gè)新的用于人工評(píng)級(jí)的模態(tài)內(nèi)匹配。然后,我們使用具有最高相似性的模態(tài)內(nèi)對進(jìn)行采樣,這可以包括一些具有高度相似性的新匹配。


          不同相似度的語義圖像相似性(SIS)和語義圖像文本相似性(SITS)示例,其中5為最相似,0為完全不相似。

          評(píng)估

          MS-COCO的匹配是不完整的,因?yàn)橛袝r(shí)為一幅圖像的描述同樣適用于另一幅圖像,但這些關(guān)聯(lián)并未記錄到數(shù)據(jù)集中。CxC使用新的正向匹配增強(qiáng)了這些現(xiàn)有的檢索任務(wù),并且還支持新的圖像-圖像檢索任務(wù)。

          通過其相似度的評(píng)級(jí)判斷,CxC還可以測量模型和人工評(píng)級(jí)之間的相關(guān)性。不僅如此,CxC的相關(guān)性分?jǐn)?shù)還考慮相似度的相對順序,其中包括低分項(xiàng)(不匹配項(xiàng))。

          我們進(jìn)行了一系列實(shí)驗(yàn),以展示CxC評(píng)級(jí)的效用。為此,我們使用基于BERT的文本編碼器和使用EfficientNet-B4作為圖像編碼器構(gòu)造了三個(gè)雙編碼器(DE)模型:

          1. 文本-文本(DE_T2T)模型,雙方使用共享的文本編碼器。
          2. 使用上述文本和圖像編碼器的圖像文本模型(DE_I2T),且在文本編碼器上方有一個(gè)用來匹配圖像編碼器輸出的層。
          3. 在文本-文本和圖像-文本任務(wù)的加權(quán)組合上訓(xùn)練的多任務(wù)模型(DE_I2T + T2T)。

          文本-文本(T2T),圖像-文本(I2T)和多任務(wù)(I2T + T2T)雙編碼器模型的CxC檢索結(jié)果

          從檢索任務(wù)的結(jié)果可以看出,DE_I2T + T2T(黃色條)在圖像文本和文本圖像檢索任務(wù)上的性能優(yōu)于DE_I2T(紅色條)。因此,添加模態(tài)內(nèi)(文本-文本)訓(xùn)練任務(wù)有助于提高模態(tài)間(圖像-文本,文本-圖像)性能。

          相同模型的CxC相關(guān)結(jié)果

          對于關(guān)聯(lián)任務(wù),DE_I2T在SIS上表現(xiàn)最好,而DE_I2T + T2T在總體上是最好的。相關(guān)分?jǐn)?shù)還顯示DE_I2T僅在圖像上表現(xiàn)良好:它具有最高的SIS,但具有更差的STS。

          添加文本-文本損失到DE_I2T訓(xùn)練中(DE_I2T + T2T),可以使整體性能更加均衡。


          參考資料:
          https://ai.googleblog.com/2021/05/crisscrossed-captions-semantic.html
          https://arxiv.org/pdf/2004.15020.pdf



          AI家,新天地。西山新綠,新智元在等你!

          【新智元高薪誠聘】主筆、高級(jí)編輯、商務(wù)總監(jiān)、運(yùn)營經(jīng)理、實(shí)習(xí)生等崗位,歡迎投遞簡歷至[email protected] (或微信: 13520015375)

          辦公地址:北京海淀中關(guān)村軟件園3號(hào)樓1100

          瀏覽 18
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产性色AV | 欧美熟女一区 | 国产精品国产精品国产 | 无码一区二区三区四区精 | 久久亚洲AV成人无码国产精品 |