<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          多模態(tài)深度學(xué)習(xí):用深度學(xué)習(xí)的方式融合各種信息

          共 1711字,需瀏覽 4分鐘

           ·

          2020-12-31 13:48

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺

          作者丨Purvanshi Mehta
          來源丨AI公園
          編輯丨極市平臺

          極市導(dǎo)讀

          ?

          在實(shí)踐中,對于結(jié)合不同模態(tài)之間的沖突的任務(wù),通常將不同輸入的高級嵌入連接起來,然后應(yīng)用softmax去結(jié)合不同模態(tài)之間的沖突,但它將給予所有子模式同等的重要性。文章講述采用對網(wǎng)絡(luò)進(jìn)行加權(quán)組合的方式,在兩個現(xiàn)實(shí)多模態(tài)數(shù)據(jù)集上得到了SOTA。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿


          多模態(tài)數(shù)據(jù)

          我們對世界的體驗(yàn)是多模態(tài)的 —— 我們看到物體,聽到聲音,感覺到質(zhì)地,聞到氣味,嘗到味道。模態(tài)是指某件事發(fā)生或經(jīng)歷的方式,當(dāng)一個研究問題包含多個模態(tài)時,它就具有多模態(tài)的特征。為了讓人工智能在理解我們周圍的世界方面取得進(jìn)展,它需要能夠同時解釋這些多模態(tài)的信號。例如,圖像通常與標(biāo)簽和文本解釋相關(guān)聯(lián),文本包含圖像,以更清楚地表達(dá)文章的中心思想。不同的模態(tài)具有非常不同的統(tǒng)計(jì)特性。

          多模態(tài)深度學(xué)習(xí)

          雖然結(jié)合不同的模態(tài)或信息類型來提高效果從直觀上看是一項(xiàng)很有吸引力的任務(wù),但在實(shí)踐中,如何結(jié)合不同的噪聲水平和模態(tài)之間的沖突是一個挑戰(zhàn)。此外,模型對預(yù)測結(jié)果有不同的定量影響。在實(shí)踐中最常見的方法是將不同輸入的高級嵌入連接起來,然后應(yīng)用softmax。

          多模態(tài)深度學(xué)習(xí)的例子,其中使用不同類型的神經(jīng)網(wǎng)絡(luò)提取特征

          這種方法的問題是,它將給予所有子網(wǎng)絡(luò)/模式同等的重要性,這在現(xiàn)實(shí)情況中是非常不可能的。

          所有的模態(tài)對預(yù)測都有相同的貢獻(xiàn)

          對網(wǎng)絡(luò)進(jìn)行加權(quán)組合

          我們采用子網(wǎng)絡(luò)的加權(quán)組合,以便每個輸入模態(tài)可以對輸出預(yù)測有一個學(xué)習(xí)貢獻(xiàn)(Theta)。我們的優(yōu)化問題變成-對每個子網(wǎng)絡(luò)給出Theta權(quán)值后的損失函數(shù)。

          將權(quán)值附加到子網(wǎng)后預(yù)測輸出。

          把所有的都用起來!

          準(zhǔn)確性和可解釋性

          我們在兩個現(xiàn)實(shí)多模態(tài)數(shù)據(jù)集上得到了SOTA:Multimodal Corpus of Sentiment Intensity(MOSI) 數(shù)據(jù)集 —— 有417個標(biāo)注過的視頻,每毫秒標(biāo)注的音頻特征。共有2199個標(biāo)注數(shù)據(jù)點(diǎn),其中情緒強(qiáng)度定義為從strongly negative到strongly positive,線性尺度從- 3到+3。

          模態(tài)包括:

          1、文本

          2、音頻

          3、語言

          每種模態(tài)對情緒預(yù)測的貢獻(xiàn)量

          Transcription Start Site Prediction(TSS)數(shù)據(jù)集 ——?Transcription是基因表達(dá)的第一步,在這一步中,特定的DNA片段被復(fù)制到RNA (mRNA)中。Transcription起始位點(diǎn)是transcription開始的位置。DNA片段的不同部分具有不同的特性,從而影響其存在。我們將TSS分為三個部分:

          1. 上游DNA
          2. 下游DNA
          3. TSS位置

          我們?nèi)〉昧饲八从械母纳疲戎暗淖钕冗M(jìn)的結(jié)果3%。使用TATA box的下游DNA區(qū)域?qū)@一過程影響最大。

          英文原文:https://towardsdatascience.com/multimodal-deep-learning-ce7d1d994f4


          推薦閱讀




          添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳),即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

          △長按添加極市小助手

          △長按關(guān)注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~??
          瀏覽 62
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天日天天操天天射 | 成人网站毛片 | 日干视频| 亚洲高清无码在线观看 | A片黄色电影 |