<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR'24 | KTPFormer: 3D人體姿態(tài)估計SOTA! 在Transformer下即插即用漲點!

          共 3199字,需瀏覽 7分鐘

           ·

          2024-05-27 07:00

          本次分享我們邀請到了香港理工大學(xué)AiDLab在讀博士彭季華,為大家詳細介紹他們的工作:

          KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation

          直播信息

          時間

          2024年5月27日(周一)晚上20:00

          主題

          CVPR'24 | KTPFormer: 3D人體姿態(tài)估計SOTA!  在Transformer下即插即用漲點!

          直播平臺

          3D視覺工坊嗶哩嗶哩

          掃碼觀看直播,或前往B站搜索3D視覺工坊觀看直播

          嘉賓介紹

          彭季華

          香港理工大學(xué)AiDLab在讀博士。研究方向為3D視覺與人體姿態(tài)估計。

          直播大綱

          1. 3D人體姿態(tài)估計現(xiàn)有方法簡介
          2. CVPR2024論文KTPFormer詳解

          參與方式

          摘要

          我們提出了一種運動學(xué)和軌跡先驗知識強化后的Transformer (KTPFormer)。它克服了現(xiàn)有基于Transformer的3D人體姿態(tài)估計方法的一個弱點,即它們的自注意力機制中的Q、K、V向量都是基于簡單的線性映射得到的。我們提出了兩個先驗注意力機制,即運動學(xué)先驗注意力(KPA)和軌跡先驗注意力(TPA)。KPA和TPA利用了人體解剖結(jié)構(gòu)和運動軌跡信息,來促進多頭自注意力機制有效地學(xué)習(xí)關(guān)節(jié)之間和幀與幀之間的全局依賴關(guān)系和特征。KPA通過構(gòu)建運動學(xué)拓?fù)鋪斫H梭w關(guān)節(jié)之間的運動學(xué)關(guān)系,而TPA則構(gòu)建了軌跡拓?fù)鋪韺W(xué)習(xí)關(guān)節(jié)在幀與幀之間的運動軌跡信息。通過生成帶有先驗知識的Q、K、V向量,這兩種先驗機制使KTPFormer能夠同時建模人體關(guān)節(jié)在空間和時間上的運動關(guān)系。在三個基準(zhǔn)數(shù)據(jù)集(Human3.6M、MPI-INF-3DHP和HumanEva)上的實驗表明,KTPFormer達到了目前SOTA的結(jié)果。更重要的是,我們的KPA和TPA機制具有輕量級的即插即用設(shè)計,可以應(yīng)用到各種基于Transformer的模型(比如diffusion)中,在有效提高模型性能的同時只需要很小的計算開銷(大約0.02M)。

          方法

          現(xiàn)有基于Transformer的3D人體姿態(tài)估計方法主要利用Transformer中的self-attention建模每一幀內(nèi)關(guān)節(jié)間的空間相關(guān)性以及幀與幀之間的姿態(tài)或關(guān)節(jié)的時間相關(guān)性。然而,無論是空間還是時間自注意力的計算,現(xiàn)有的方法都使用線性映射將2D姿態(tài)序列轉(zhuǎn)化為高維的tokens,并在空間和時間自注意力機制中統(tǒng)一地處理它們。這會導(dǎo)致在self-attention中出現(xiàn)“attention collapse”的問題,即自注意力過于集中在輸入tokens的有限子集上,而忽視了對該token序列其他部分的建模,因為它不知道哪些token之間需要重點關(guān)注。

          為了解決以上的問題,我們在Transformer中引入了兩個先驗注意力機制,即運動學(xué)先驗注意力(KPA)和軌跡先驗注意力(TPA),如下圖1所示。KPA首先基于人體解剖結(jié)構(gòu)構(gòu)建了一個空間局部拓?fù)洹_@些關(guān)節(jié)之間的物理連接關(guān)系是固定的,用實線表示。為了引入不相鄰關(guān)節(jié)之間的運動學(xué)關(guān)系,我們使用全連接的空間拓?fù)鋪碛嬎忝總€關(guān)節(jié)之間的注意力權(quán)重,稱為模擬的空間全局拓?fù)洹T谶@個拓?fù)渲校繉﹃P(guān)節(jié)之間的連接關(guān)系是可學(xué)習(xí)的,因此我們用虛線表示。我們將空間局部拓?fù)浜湍M的空間全局拓?fù)湎嘟Y(jié)合,就得到了一個運動學(xué)拓?fù)洌總€關(guān)節(jié)都與其他關(guān)節(jié)有可學(xué)習(xí)的運動學(xué)關(guān)系。這個運動學(xué)拓?fù)湫畔⒅荚跒榭臻g多頭自注意力提供先驗知識,使其能夠根據(jù)不同動作中的運動學(xué)關(guān)系來為空間注意力圖分配權(quán)重。

          類似地,如圖1下方所示,TPA連接了同一個關(guān)節(jié)在時序上的連續(xù)幀,建立時間局部拓?fù)洹=酉聛恚覀兝每蓪W(xué)習(xí)的向量(虛線)連接所有相鄰和非相鄰幀中的關(guān)節(jié),構(gòu)建時間全局拓?fù)洌@等同于自注意力機制中所有幀之間注意力權(quán)重的計算,我們稱為模擬的時間全局拓?fù)洹H缓螅覀儗⑦@兩個拓?fù)浣Y(jié)合,得到一個新的關(guān)節(jié)運動軌跡拓?fù)洹_@讓網(wǎng)絡(luò)能同時學(xué)習(xí)關(guān)節(jié)運動的時序性和周期性(非相鄰幀中的關(guān)節(jié)在高幀率的視頻中具有相似的運動)。嵌入了軌跡信息的時序tokens將在時序自注意力機制中有效地被激活,這增強了自注意力機制的時序建模能力。如圖2所示,我們將KPA和TPA這兩個先驗機制與普通的多頭自注意力(MHSA)和MLP相結(jié)合,得了一個用運動學(xué)和軌跡先驗知識增強的Transformer (KTPFormer)。

          實驗

          KTPFormer在Human3.6MMPI-INF-3DHPHumanEva這三個公開數(shù)據(jù)集上進行了實驗。評估準(zhǔn)則主要是計算關(guān)節(jié)之間的平均預(yù)測誤差MPJPE,以及預(yù)測姿態(tài)和ground-truth姿態(tài)對齊后的P-MPJPE。如下面表格1和2所示,我們與最近幾年的SOTA方法在Human3.6M上進行了比較。我們的KTPFormer以CPN檢測的2D poses作為輸入,在使用了D3DP[1]提出的diffusion過程后,在MPJPEP-MPJPE指標(biāo)上分別達到了33.0mm和26.2mm的SOTA結(jié)果。另外,在表格2中,我們以ground-truth 2D poses作為輸入,也在MPJPE上達到了SOTA的結(jié)果18.1mm。

          如下面表格3和表格4所示,KTPFormer在MPI-INF-3DHP(帶有更復(fù)雜的室外場景)和HumanEva(更小的數(shù)據(jù)集)上也分別取得了目前SOTA的結(jié)果。

          如下表格7所示,我們設(shè)計的KPA和TPA先驗機制可以以即插即用的方式應(yīng)用到最近不同的3D姿態(tài)預(yù)測器中,實現(xiàn)有效地漲點,同時只增加了極少量的參數(shù)和FLOPs,體現(xiàn)出了輕量化的設(shè)計思想。

          如下圖所示,KPA可以讓空間自注意力機制更合理地在關(guān)節(jié)之間分配注意力權(quán)重;TPA也可以強化時序注意力的時序性和周期性(時序注意力圖的對角線變粗表示模型更加關(guān)注相鄰幀和小范圍的不相鄰幀之間的運動關(guān)系)。

          總結(jié)

          本文提出了一種運動學(xué)和軌跡先驗知識增強的KTPFormer用于3D人體姿態(tài)估計,它包含了兩種新穎的先驗注意力機制KPA和TPA。它們可以有效增強自注意力機制在建模全局相關(guān)性方面的能力。在三個數(shù)據(jù)集上的實驗結(jié)果表明,我們的方法能夠在計算開銷僅略有增加的情況下顯著提高性能。此外,我們的KPA和TPA可以作為輕量級的即插即用模塊被應(yīng)用到各種基于Transformer的3D姿態(tài)預(yù)測模型中,甚至可以被應(yīng)用到人體動作識別模型中。

          [1] Wenkang Shan, Zhenhua Liu, Xinfeng Zhang, Zhao Wang,Kai Han, Shanshe Wang, Siwei Ma, and Wen Gao. Diffusion-based 3d human pose estimation with multihypothesis aggregation. arXiv preprint arXiv:2303.11579, 2023. 2, 5, 6, 7

          注:本次分享我們邀請到了香港理工大學(xué)AiDLab在讀博士彭季華,為大家詳細介紹他們的工作:KTPFormer。如果您有相關(guān)工作需要分享,歡迎聯(lián)系:cv3d008

          瀏覽 141
          3點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          3點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  三级网站网址 | 无码一区二区波多野结衣播放搜索 | av天堂影视 | jizz在线观看视频 | 日韩精品电影 |