<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【深度學(xué)習(xí)】頂刊TPAMI 2022!基于不同數(shù)據(jù)模態(tài)的行為識(shí)別:最新綜述

          共 2228字,需瀏覽 5分鐘

           ·

          2022-07-09 07:13

          Human Action Recognition from Various Data Modalities: A Review

          論文:https://arxiv.org/abs/2012.11866


          1. 介紹


          人類行為識(shí)別旨在了解人類的行為,并為行為指定標(biāo)簽,例如,握手、吃東西、跑步等。它具有廣泛的應(yīng)用前景,因此在計(jì)算機(jī)視覺(jué)領(lǐng)域受到越來(lái)越多的關(guān)注。人類行為可以使用各種數(shù)據(jù)模態(tài)來(lái)表示,如RGB、骨架、深度、紅外序列、點(diǎn)云、事件流、音頻、加速信號(hào)、雷達(dá)和WiFi,這些數(shù)據(jù)模態(tài)在不同的場(chǎng)景下具有不同的優(yōu)勢(shì)。因此,現(xiàn)有的論文試圖基于主流的深度學(xué)習(xí)來(lái)研究不同的數(shù)據(jù)模態(tài)的的行為識(shí)別方法。


          該論文從模態(tài)的角度,對(duì)當(dāng)前基于深度學(xué)習(xí)的行為識(shí)別方法進(jìn)行了全面的綜述。具體來(lái)說(shuō),

          (1)該論文回顧了基于單模態(tài)的行為識(shí)別方法,這些模態(tài)包括RGB、骨架、深度、紅外序列、點(diǎn)云、事件流、音頻、加速信號(hào)、雷達(dá)和WiFi。

          (2)該論文回顧了基于多模態(tài)的行為識(shí)別方法,并將其分為多模態(tài)融合跨模態(tài)協(xié)同學(xué)習(xí)兩種類型。

          (3)該論文回顧了最新和最先進(jìn)的深度學(xué)習(xí)方法,包括CNN、RNN、GCN和Transformer,并在幾個(gè)基準(zhǔn)數(shù)據(jù)集上對(duì)現(xiàn)有方法及其性能進(jìn)行了全面比較。


          2.「數(shù)據(jù)模態(tài)」都有哪些?


          在本文中,主要回顧了基于RGB、骨架、深度、紅外序列、點(diǎn)云、事件流、音頻、加速信號(hào)、雷達(dá)和WiFi模態(tài)的行為識(shí)別方法。此外,其他的數(shù)據(jù)模態(tài),如角速度、射頻、肌電圖等等,也可被用于行為識(shí)別。



          (1)RGB視頻:行為識(shí)別領(lǐng)域中最常見(jiàn)的數(shù)據(jù)模態(tài),被廣泛地應(yīng)用于視覺(jué)監(jiān)視、自主導(dǎo)航等應(yīng)用中。RGB模態(tài)包含了豐富的場(chǎng)景上下文外觀信息,但易于受到背景、視角、人體尺度和照明條件變化的影響。對(duì)于RGB模態(tài),最常見(jiàn)的四類深度學(xué)習(xí)網(wǎng)絡(luò)是雙流2D CNN,RNN,3D CNN,和Transformer



          (2)骨架序列:編碼人體關(guān)節(jié)的軌跡,當(dāng)動(dòng)作執(zhí)行不涉及物體或場(chǎng)景上下文時(shí)簡(jiǎn)潔高效,具有尺度不變性、對(duì)紋理和背景變化的魯棒性。對(duì)于骨架模態(tài),最常見(jiàn)的四類深度學(xué)習(xí)網(wǎng)絡(luò)是CNN,RNN,GCN,和Transformer



          (3)深度圖:本質(zhì)是將3D數(shù)據(jù)轉(zhuǎn)換為2D圖像,提供了可靠的人體三維結(jié)構(gòu)和幾何形狀信息,對(duì)顏色和紋理的變化具有魯棒性。

          (4)紅外序列:不依賴外部環(huán)境光,適用于黑暗環(huán)境中的行為識(shí)別。

          (5)點(diǎn)云:獲取目標(biāo)的三維結(jié)構(gòu)和距離信息,在機(jī)器人導(dǎo)航和自動(dòng)駕駛中得到廣泛應(yīng)用。點(diǎn)云由大量的點(diǎn)集合組成,這些點(diǎn)代表了在空間參考系統(tǒng)下目標(biāo)的空間分布和表面特征,具有很強(qiáng)的空間輪廓和三維幾何形狀表征能力,因此適用于行為識(shí)別研究。

          (6)事件流:事件相機(jī),也被稱為神經(jīng)形態(tài)相機(jī)或動(dòng)態(tài)視覺(jué)傳感器,可以捕捉光照變化,并獨(dú)立地為每個(gè)像素產(chǎn)生異步事件輸出。因此,事件流數(shù)據(jù)保留了主體的運(yùn)動(dòng)信息,避免過(guò)多的背景視覺(jué)冗余。

          (7)音頻:是視頻數(shù)據(jù)任務(wù)十分流行的輔助模態(tài)。由于視覺(jué)和音頻流之間的同步,音頻數(shù)據(jù)可以提供額外信息,并且可以用于定位動(dòng)作,以減少人類標(biāo)記工作和減少計(jì)算成本。

          (8)加速信號(hào):通常由IMU傳感器獲取,用于細(xì)粒度和多模態(tài)的行為識(shí)別。

          (9)雷達(dá):雷達(dá)高頻率和短波長(zhǎng)的信號(hào)使得其可用于細(xì)粒度的感知任務(wù)。雷達(dá)頻譜圖對(duì)光照和天氣條件變化具有魯棒性,保護(hù)隱私,可用于穿越墻壁的行為識(shí)別。

          (10)WiFi:最常見(jiàn)室內(nèi)無(wú)線信號(hào)類型之一,主要利用信道狀態(tài)信息(CSI)的變化進(jìn)行行為識(shí)別的感知任務(wù)。


          3.「多模態(tài)」方法有哪些?


          在現(xiàn)實(shí)生活中,人們往往以多種認(rèn)知方式感知環(huán)境。同樣,多模態(tài)機(jī)器學(xué)習(xí)是一種旨在處理和關(guān)聯(lián)來(lái)自多個(gè)模態(tài)信息的建模方法。通過(guò)綜合各種數(shù)據(jù)模態(tài)的優(yōu)勢(shì)和能力,多模態(tài)機(jī)器學(xué)習(xí)通常可以提供更健壯和更準(zhǔn)確的行為識(shí)別結(jié)果。多模態(tài)學(xué)習(xí)方法主要分為兩種,即融合協(xié)同學(xué)習(xí)


          融合是指將來(lái)自兩種或兩種以上模態(tài)的信息整合進(jìn)行訓(xùn)練和推理,例如,音頻數(shù)據(jù)可以作為骨架模態(tài)的補(bǔ)充信息來(lái)區(qū)分“拍盤子”和“拍袋子”動(dòng)作。



          協(xié)同學(xué)習(xí)是指不同數(shù)據(jù)模態(tài)之間的知識(shí)遷移,例如,骨架數(shù)據(jù)可以作為輔助模態(tài),使模型能夠從RGB視頻中為行為識(shí)別提取更多的判別特征。同時(shí),協(xié)同學(xué)習(xí)還適用于現(xiàn)實(shí)生活中某些模態(tài)缺失的情況。



          4.「數(shù)據(jù)集」有哪些?


          近些年來(lái),大量的行為識(shí)別數(shù)據(jù)集被提出以訓(xùn)練和評(píng)估各種方法,該論文總結(jié)了適用于不同模態(tài)的基準(zhǔn)數(shù)據(jù)集,并提供了其相關(guān)屬性。



          5. 結(jié)語(yǔ)


          行為識(shí)別是近些年來(lái)備受關(guān)注的重要研究領(lǐng)域,各種具有不同特征的數(shù)據(jù)模態(tài)被研究使用。雖然已有大量的行為識(shí)別工作被提出,但在(1)數(shù)據(jù)集、(2)多模態(tài)學(xué)習(xí)、(3)低成本計(jì)算、(4)動(dòng)作預(yù)測(cè)、(5)小樣本學(xué)習(xí)、(6)非監(jiān)督和半監(jiān)督學(xué)習(xí)等方面仍需要進(jìn)一步的探索,堅(jiān)信行為識(shí)別將在未來(lái)發(fā)揮更加關(guān)鍵的作用。


          該論文發(fā)表在 IEEE TPAMI - DOI: 10.1109/TPAMI.2022.3183112。

          這是其最新版本(2022年6月更新),涵蓋最新的2022 CVPR。作者擬對(duì)此論文的arXiv版本進(jìn)行每年定期更新,以覆蓋人類行為識(shí)別領(lǐng)域的最新進(jìn)展。


          最后附論文鏈接:https://arxiv.org/abs/2012.11866


          往期精彩回顧




          瀏覽 42
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  麻豆国产91 在线播放猎赤 | 操逼在线观看 | 国产成人无码AⅤ片免费播放 | 激情五月婷婷丁香 | 男女啪啪网站国产 |