<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          圖片/文字/視頻跨模態(tài)檢索綜述

          共 4341字,需瀏覽 9分鐘

           ·

          2021-07-27 15:38


          向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)??????

          機(jī)器學(xué)習(xí)AI算法工程   公眾號(hào):datayx



          0 引言


          在過(guò)去的二十幾年里,不同類型的媒體數(shù)據(jù)如文 本、圖像和視頻迅速增長(zhǎng)。通常,這些不同類型的 數(shù)據(jù)用于描述相同的事件或主題。例如,網(wǎng)頁(yè)通常 不僅包含文本描述,還包含與之匹配的圖像或視頻。這些不同類型的數(shù)據(jù)被稱為多模態(tài)數(shù)據(jù),表現(xiàn)出模 態(tài)間異構(gòu)特性并具有廣泛的應(yīng)用,如圖 1 所示,互 聯(lián)網(wǎng)與社交媒體涌現(xiàn)的大規(guī)模多模態(tài)數(shù)據(jù)可以用于 進(jìn)行主題檢測(cè)、信息推薦、檢索等。 


          多模態(tài)數(shù)據(jù)的迅速增長(zhǎng)使得用戶很難有效地搜 索感興趣的信息,也就衍生了各種各樣的檢索、搜 索技術(shù)。然而這些搜索技術(shù)大多是針對(duì)單一模態(tài)內(nèi) 檢索,如基于關(guān)鍵字的檢索和基于內(nèi)容的檢索,它 們只執(zhí)行相同媒體類型的相似性搜索,如文本檢索、 圖像檢索、音頻檢索和視頻檢索。近些年來(lái),移動(dòng) 設(shè)備和新興的社交網(wǎng)站(如 Facebook、Flickr、 YouTube 和 Twitter)的普及使得用戶對(duì)跨模態(tài)數(shù)據(jù) 檢索的要求越來(lái)越高。例如,用戶正在游覽長(zhǎng)城, 希望通過(guò)拍照檢索相關(guān)的文本、音頻等材料作為指 南。通常,跨模態(tài)檢索的目的是以一種模態(tài)的數(shù)據(jù)作為查詢來(lái)檢索相關(guān)的其它模態(tài)數(shù)據(jù)。


          近些年來(lái),跨模態(tài)檢索引起了研究者廣泛的研究 興趣。一般來(lái)說(shuō),與傳統(tǒng)的單模態(tài)檢索方法相比, 跨模態(tài)檢索需要構(gòu)建跨模態(tài)關(guān)系模型,以便用戶可 以通過(guò)提交他們所擁有的模態(tài)來(lái)檢索他們期望的模 態(tài)。因此,跨模態(tài)檢索的挑戰(zhàn)在于如何度量不同模 態(tài)數(shù)據(jù)之間的內(nèi)容相似性,也稱之為異質(zhì)鴻溝問(wèn)題 (heterogeneity gap)。近些年來(lái),隨著深度學(xué)習(xí)技 術(shù)的推廣以及其在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ) 音分析等領(lǐng)域的顯著成果(LeCun 等,2015),以 深度學(xué)習(xí)技術(shù)為基礎(chǔ)的表示學(xué)習(xí)對(duì)于緩解異質(zhì)鴻溝 問(wèn)題提供了一種有前景的解決方案。大量的深度跨 模態(tài)檢索技術(shù)被提出并取得了優(yōu)異的跨模態(tài)檢索性 能,在學(xué)術(shù)界和工業(yè)界產(chǎn)生了廣泛的影響。



            本文 原論文PDF 獲取方式:

            關(guān)注微信公眾號(hào) datayx  然后回復(fù) 跨模態(tài) 即可獲取。

            AI項(xiàng)目體驗(yàn)地址 https://loveai.tech

           


          本文旨在對(duì)深度跨模態(tài)檢索提供全面的綜述。在 此之前, 本文作者在該方向進(jìn)行了深入的研究,從 特征選擇、子空間對(duì)齊、模態(tài)缺失、語(yǔ)義順序?qū)W習(xí)、 小樣本學(xué)習(xí)等方面進(jìn)行了較多探索(Huang 等 2020;Huang 等,2019;Huang 等,2019;Huang 等, 2018;Yin 等,2017;Huang 等,2017;Wang 等, 2016;Xu 等,2016;He 等 2015;Huang 等,2015;Wang 等,2013;Yin 等,2018),對(duì)于該領(lǐng)域當(dāng) 前的研究現(xiàn)狀和近幾年的最新進(jìn)展較為熟悉,這也 是作者們立足自身研究基礎(chǔ)選擇撰寫該綜述的主要 原因。Liu 等人(2010)在 2010 年進(jìn)行了跨模態(tài)檢索綜述,但是無(wú)法囊括近些年來(lái)涌現(xiàn)的新方法新工 作。Xu 等人(2013)在 2013 年進(jìn)行了多視角學(xué)習(xí) 綜述但卻并非針對(duì)異質(zhì)模態(tài)且檢索任務(wù)。Peng 等人 (2017)在 2017 年發(fā)表了跨模態(tài)檢索的綜述論文, 但當(dāng)時(shí)沒(méi)有對(duì) 2017 年之后的跨模態(tài)檢索方法進(jìn)行 總結(jié)。近些年來(lái),Baltrusaitis 等人(2019)對(duì)多模 態(tài)機(jī)器學(xué)習(xí)進(jìn)行了綜述和分類,但是其研究重點(diǎn)過(guò) 于分散,無(wú)法涵蓋跨模態(tài)檢索任務(wù)的所有重要問(wèn)題。針對(duì)跨模態(tài)檢索面臨的各種挑戰(zhàn)性問(wèn)題,研究者提 供了各種思路和技術(shù)。本文著重總結(jié)了這些與以往 相關(guān)研究有很大不同的深度跨模態(tài)檢索的最新研究 成果。需要注意的是,本文關(guān)注在跨模態(tài)檢索這一 基本跨模態(tài)分析任務(wù)上,其它相關(guān)主題,如圖像/視 頻描述、圖文問(wèn)答等文獻(xiàn)(Li 等,2019;Srivastava 等,2019)不在本文討論范圍內(nèi)。 

          本文的主要貢獻(xiàn)如下: 

          ? 本文綜述了深度跨模態(tài)檢索的最新進(jìn)展。它 包含了許多在以前的綜述中沒(méi)有出現(xiàn)的新 的重要的參考文獻(xiàn),該綜述有利于初學(xué)者快 速了解和熟悉跨模態(tài)檢索領(lǐng)域。

          ? 本文對(duì)深度跨模態(tài)檢索方法進(jìn)行了分類,介 紹了不同類別下的代表性方法并重點(diǎn)闡述 了同類下不同方法以及不同類方法之間的 差異,這有助于該領(lǐng)域研究者更好理解跨模 態(tài)檢索領(lǐng)域中使用的各種技術(shù)。 

          ?本文對(duì)深度跨模態(tài)檢索領(lǐng)域面臨的機(jī)遇和 挑戰(zhàn)進(jìn)行了梳理,并總結(jié)了未來(lái)該領(lǐng)域的發(fā) 展方向,這將有助于啟發(fā)進(jìn)而做出更有價(jià)值 的跨模態(tài)檢索工作。


          本文的整體組織結(jié)構(gòu)如下。第二章給出深度跨模 態(tài)檢索的分類依據(jù)與方法。第三章介紹不同類別下 代表性的深度跨模態(tài)檢索算法與其區(qū)別。第四章給 出廣泛使用的基準(zhǔn)跨模態(tài)數(shù)據(jù)庫(kù)。第五章進(jìn)行討論 與未來(lái)展望。最后,第六章對(duì)本文進(jìn)行總結(jié)。




          1 深度跨模態(tài)檢索概述 


          深度跨模態(tài)檢索的一般框架如圖 2 所示。深度特 征學(xué)習(xí)以及跨模態(tài)相關(guān)關(guān)系建模為多模態(tài)共同表示 學(xué)習(xí)的重要步驟,在減少異質(zhì)鴻溝問(wèn)題中發(fā)揮重要 作用?;诙嗄B(tài)共同表示,跨模態(tài)相似度可以進(jìn) 行有效度量。一般來(lái)說(shuō),上述共同表示可以是實(shí)值表達(dá)也可以是二值表達(dá)。對(duì)于實(shí)值表達(dá),學(xué)習(xí)得到 的不同模態(tài)表達(dá)為實(shí)數(shù)值(一般為向量)。對(duì)于二 值表達(dá),學(xué)習(xí)得到的不同模態(tài)表達(dá)為-1 以及 1 構(gòu)成 的編碼,該精簡(jiǎn)表達(dá)有助于減少存儲(chǔ)需求且加速跨 模態(tài)檢索速度,相關(guān)方法也稱之為跨模態(tài)哈希。




          在不同的跨模態(tài)數(shù)據(jù)信息提供下,研究者提出了 廣泛的學(xué)習(xí)技術(shù)并表現(xiàn)出一定的差異。這些技術(shù)大 概包含七類,即典型相關(guān)分析、一一對(duì)應(yīng)關(guān)系保持、 度量學(xué)習(xí)、似然分析、學(xué)習(xí)排序、語(yǔ)義預(yù)測(cè)以及對(duì) 抗學(xué)習(xí)。下面簡(jiǎn)要介紹這七類技術(shù)。典型相關(guān)分析線性投影兩個(gè)模態(tài)數(shù)據(jù)至低維空 間并最大化模態(tài)間相關(guān)關(guān)系,深度神經(jīng)網(wǎng)絡(luò)的引入 一般替換上述線性投影而有利于相關(guān)性最大化目標(biāo) 函數(shù)的優(yōu)化。一一對(duì)應(yīng)關(guān)系保持在共同表示層構(gòu)建跨模態(tài)數(shù)據(jù)間 一一對(duì)應(yīng)關(guān)系,進(jìn)而實(shí)現(xiàn)對(duì)應(yīng)的跨模態(tài)數(shù)據(jù)間距離 最小化。其該項(xiàng)技術(shù)廣泛應(yīng)用于早期尤其是無(wú)監(jiān)督 跨模態(tài)檢索中。



          度量學(xué)習(xí)引入度量函數(shù)或者深度神經(jīng)網(wǎng)絡(luò)構(gòu)建 數(shù)據(jù)間相似性與非相似性關(guān)系,其主要目標(biāo)為相似 樣本在共同表示空間具有較小距離而非相似樣本具 有較大距離。似然分析作為生成模型,一般通過(guò)極大似然優(yōu)化 目標(biāo)函數(shù)進(jìn)行觀測(cè)數(shù)據(jù)的生成建模,在跨模態(tài)數(shù)據(jù) 中,該觀測(cè)數(shù)據(jù)可以是多模態(tài)特征、數(shù)據(jù)間對(duì)應(yīng)關(guān) 系以及數(shù)據(jù)間相似度等。學(xué)習(xí)排序構(gòu)建排序模型保證在共同表示空間下 數(shù)據(jù)間的排序關(guān)系得以保持。在跨模態(tài)數(shù)據(jù)中,該 排序信息一般以三元組的形式通過(guò)模態(tài)內(nèi)或者模態(tài) 間相似關(guān)系進(jìn)行構(gòu)建。語(yǔ)義預(yù)測(cè)通過(guò)一般分類任務(wù)模型實(shí)現(xiàn)模態(tài)內(nèi)數(shù) 據(jù)相似性結(jié)構(gòu)保持,即具有相同的語(yǔ)義標(biāo)注則具有 相似的共同表示,通過(guò)此間接實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)關(guān)系 構(gòu)建,即相同語(yǔ)義下跨模態(tài)共同表示一致。對(duì)抗學(xué)習(xí)主要是生成對(duì)抗網(wǎng)絡(luò)思想(Goodfellow 等,2014)的引入,通過(guò)構(gòu)建生成-對(duì)抗任務(wù)以學(xué)習(xí)多模態(tài)共同表示,建模過(guò)程迫使相似的跨模態(tài)數(shù)據(jù) 共同表示統(tǒng)計(jì)不可分,進(jìn)而實(shí)現(xiàn)模態(tài)間相似度計(jì)算。需要注意的是深度跨模態(tài)檢索代表性方法的劃 分主要體現(xiàn)在實(shí)現(xiàn)共同表示學(xué)習(xí)任務(wù)的普遍優(yōu)化目 標(biāo)的差異上。不同代表性方法往往存在多種技術(shù)的 整合,為方便進(jìn)行對(duì)比,我們針對(duì)方法本身的最主 要特性進(jìn)行劃分,相關(guān)代表性方法整理如表 1 所示。














          機(jī)器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)

           搜索公眾號(hào)添加: datanlp

          長(zhǎng)按圖片,識(shí)別二維碼




          閱讀過(guò)本文的人還看了以下文章:


          TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)


          基于40萬(wàn)表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測(cè)


          《基于深度學(xué)習(xí)的自然語(yǔ)言處理》中/英PDF


          Deep Learning 中文版初版-周志華團(tuán)隊(duì)


          【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!


          《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf


          《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目


          2019最新《PyTorch自然語(yǔ)言處理》英、中文版PDF+源碼


          《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼


          《深度學(xué)習(xí)之pytorch》pdf+附書源碼


          PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)


          李沐大神開源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!


          《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼


          將機(jī)器學(xué)習(xí)模型部署為REST API


          FashionAI服裝屬性標(biāo)簽圖像識(shí)別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識(shí)別


          yolo3 檢測(cè)出圖像中的不規(guī)則漢字


          同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過(guò)不了?


          前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)


          【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類


          VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識(shí)別分類工程項(xiàng)目


          特征工程(一)


          特征工程(二) :文本數(shù)據(jù)的展開、過(guò)濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學(xué)習(xí)


          如何利用全新的決策樹集成級(jí)聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過(guò)


          全球AI挑戰(zhàn)-場(chǎng)景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識(shí)別手寫中文網(wǎng)站


          中科院Kaggle全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程



          不斷更新資源

          深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python

           搜索公眾號(hào)添加: datayx  


          瀏覽 87
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲考逼| 在线观看几把的网站 | 婷婷五月天社区 | 特污的免费网站中文字幕 | 久久精品观看 |