<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          姿態(tài)估計(jì):人體骨骼關(guān)鍵點(diǎn)檢測綜述(2016-2020)

          共 9855字,需瀏覽 20分鐘

           ·

          2020-08-06 00:14

          加入極市專業(yè)CV交流群,與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度?等名校名企視覺開發(fā)者互動(dòng)交流!

          同時(shí)提供每月大咖直播分享、真實(shí)項(xiàng)目需求對接、干貨資訊匯總,行業(yè)技術(shù)交流。關(guān)注?極市平臺?公眾號?,回復(fù)?加群,立刻申請入群~

          作者丨七醬@知乎
          來源丨h(huán)ttps://zhuanlan.zhihu.com/p/69042249

          目錄

          一、前言
          二、相關(guān)數(shù)據(jù)集
          三、Ground Truth的構(gòu)建
          四、單人2D關(guān)鍵點(diǎn)檢測的發(fā)展(2016-2019)
          五、多人2D關(guān)鍵點(diǎn)檢測的算法(Top-Down和Bottom-Up)
          六、3D關(guān)鍵點(diǎn)檢測的算法
          七、2020CVPR姿態(tài)估計(jì)相關(guān)文章更新
          八、技巧通用類文章(先挖坑)

          一、前言

          人體骨骼關(guān)鍵點(diǎn)檢測是諸多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ),例如動(dòng)作分類、行為識別以及無人駕駛等。2012年,Hinton課題組為了證明深度學(xué)習(xí)的潛力,首次參加ImageNet圖像識別比賽,其通過構(gòu)建的CNN網(wǎng)絡(luò)AlexNet一舉奪得冠軍,且碾壓第二名(SVM方法)的分類性能。也正是由于該比賽,CNN吸引到了眾多研究者的注意。深度學(xué)習(xí)開始迎來超級發(fā)展時(shí)期,人體骨骼關(guān)鍵點(diǎn)檢測效果也不斷提升。
          由于人體具有柔韌性,會出現(xiàn)各種姿態(tài),人體任何部位的變化都會產(chǎn)生新的姿態(tài),同時(shí)關(guān)鍵點(diǎn)的可見性受穿著、視角等影響非常大,而且還面臨著遮擋、光照、霧等環(huán)境的影響,使得人體骨骼關(guān)鍵點(diǎn)檢測成為計(jì)算機(jī)視覺領(lǐng)域中一個(gè)極具挑戰(zhàn)性的課題。本文主要介紹單人2D人體骨骼關(guān)鍵點(diǎn)的近年來的相關(guān)算法,以及最新的多人2D人體骨骼關(guān)鍵點(diǎn)算法和3D人體骨骼關(guān)鍵點(diǎn)算法。

          二、相關(guān)數(shù)據(jù)集

          LSP(Leeds Sports Pose Dataset):單人人體關(guān)鍵點(diǎn)檢測數(shù)據(jù)集,關(guān)鍵點(diǎn)個(gè)數(shù)為14,樣本數(shù)2K,在目前的研究中作為第二數(shù)據(jù)集使用。
          FLIC(Frames Labeled In Cinema):單人人體關(guān)鍵點(diǎn)檢測數(shù)據(jù)集,關(guān)鍵點(diǎn)個(gè)數(shù)為9,樣本數(shù)2W,在目前的研究中作為第二數(shù)據(jù)集使用。
          MPII(MPII Human Pose Dataset):單人/多人人體關(guān)鍵點(diǎn)檢測數(shù)據(jù)集,關(guān)鍵點(diǎn)個(gè)數(shù)為16,樣本數(shù)25K,是單人人體關(guān)鍵點(diǎn)檢測的主要數(shù)據(jù)集。
          MSCOCO:多人人體關(guān)鍵點(diǎn)檢測數(shù)據(jù)集,關(guān)鍵點(diǎn)個(gè)數(shù)為17,樣本數(shù)多于30W,多人關(guān)鍵點(diǎn)檢測的主要數(shù)據(jù)集,主流數(shù)據(jù)集;
          AI Challenger:多人人體關(guān)鍵點(diǎn)檢測數(shù)據(jù)集,關(guān)鍵點(diǎn)個(gè)數(shù)為14,樣本數(shù)約38W,競賽數(shù)據(jù)集;
          human3.6M:是3D人體姿勢估計(jì)的最大數(shù)據(jù)集,由360萬個(gè)姿勢和相應(yīng)的視頻幀組成,這些視頻幀包含11位演員從4個(gè)攝像機(jī)視角執(zhí)行15項(xiàng)日常活動(dòng)的過程。數(shù)據(jù)集龐大將近100G。(很多人好像下載不了,有人想要的話,網(wǎng)盤分享給各位)
          PoseTrack:最新的關(guān)于人體骨骼關(guān)鍵點(diǎn)的數(shù)據(jù)集,多人人體關(guān)鍵點(diǎn)跟蹤數(shù)據(jù)集,包含單幀關(guān)鍵點(diǎn)檢測、多幀關(guān)鍵點(diǎn)檢測、多人關(guān)鍵點(diǎn)跟蹤三個(gè)人物,多于500個(gè)視頻序列,幀數(shù)超過20K,關(guān)鍵點(diǎn)個(gè)數(shù)為15。

          三、Ground Truth的構(gòu)建

          在介紹多人關(guān)鍵點(diǎn)檢測論文之前,首先介紹一下關(guān)鍵點(diǎn)回歸的Ground Truth的構(gòu)建問題,主要有兩種思路,Coordinate和Heatmap,Coordinate即直接將關(guān)鍵點(diǎn)坐標(biāo)作為最后網(wǎng)絡(luò)需要回歸的目標(biāo),這種情況下可以直接得到每個(gè)坐標(biāo)點(diǎn)的直接位置信息;Heatmap即將每一類坐標(biāo)用一個(gè)概率圖來表示,對圖片中的每個(gè)像素位置都給一個(gè)概率,表示該點(diǎn)屬于對應(yīng)類別關(guān)鍵點(diǎn)的概率,比較自然的是,距離關(guān)鍵點(diǎn)位置越近的像素點(diǎn)的概率越接近1,距離關(guān)鍵點(diǎn)越遠(yuǎn)的像素點(diǎn)的概率越接近0,具體可以通過相應(yīng)函數(shù)進(jìn)行模擬,如Gaussian等,如果同一個(gè)像素位置距離不同關(guān)鍵點(diǎn)的距離大小不同,即相對于不同關(guān)鍵點(diǎn)該位置的概率不一樣,這時(shí)可以取Max或Average。對于兩種Ground Truth的差別,Coordinate網(wǎng)絡(luò)在本質(zhì)上來說,需要回歸的是每個(gè)關(guān)鍵點(diǎn)的一個(gè)相對于圖片的offset,而長距離offset在實(shí)際學(xué)習(xí)過程中是很難回歸的,誤差較大,同時(shí)在訓(xùn)練中的過程,提供的監(jiān)督信息較少,整個(gè)網(wǎng)絡(luò)的收斂速度較慢;Heatmap網(wǎng)絡(luò)直接回歸出每一類關(guān)鍵點(diǎn)的概率,在一定程度上每一個(gè)點(diǎn)都提供了監(jiān)督信息,網(wǎng)絡(luò)能夠較快的收斂,同時(shí)對每一個(gè)像素位置進(jìn)行預(yù)測能夠提高關(guān)鍵點(diǎn)的定位精度,在可視化方面,Heatmap也要優(yōu)于Coordinate,除此之外,實(shí)踐證明,Heatmap確實(shí)要遠(yuǎn)優(yōu)于Coordinate。最后,對于Heatmap + Offsets的Ground Truth構(gòu)建思路主要是Google在CVPR 2017上提出的,與單純的Heatmap不同的是,Google的Heatmap指的是在距離目標(biāo)關(guān)鍵點(diǎn)一定范圍內(nèi)的所有點(diǎn)的概率值都為1,在Heatmap之外,使用Offsets,即偏移量來表示距離目標(biāo)關(guān)鍵點(diǎn)一定范圍內(nèi)的像素位置與目標(biāo)關(guān)鍵點(diǎn)之間的關(guān)系。
          1.Towards accurate multi-person pose estimation in the wild(cvpr2017)
          第一階段使用faster rcnn做detection,檢測出圖片中的多個(gè)人,并對bounding box進(jìn)行image crop;第二階段采用fully convolutional resnet對每一個(gè)bonding box中的人物預(yù)測dense heatmap和offset; 最后通過heatmap和offset的融合得到關(guān)鍵點(diǎn)的精確定位。
          下面這篇文章也使用到了offset這個(gè)概念。
          2.Learning to Refifine Human Pose Estimation(2018)
          本文提出了訓(xùn)練一個(gè)新的模型, 來對某個(gè)pose estimation model產(chǎn)生的pose進(jìn)行修正。文章引入了一種有效的后處理技術(shù)用于人體姿勢估計(jì)中的身體關(guān)節(jié)細(xì)化任務(wù)。由于其前饋架構(gòu),簡單且端到端的可訓(xùn)練,高效的。提出了一個(gè)培訓(xùn)數(shù)據(jù)增強(qiáng)方案糾錯(cuò),使網(wǎng)絡(luò)能夠識別錯(cuò)誤的身體關(guān)節(jié)預(yù)測和學(xué)習(xí)方法改進(jìn)它們。

          四、單人關(guān)鍵點(diǎn)檢測的發(fā)展(2016-2019)

          廢話一下,2019開始專門做單人2d關(guān)鍵點(diǎn)的論文也太少了吧,很多文章都是做2d多人或者3d,然后把mpll的數(shù)據(jù)集的結(jié)果在文章后面貼一貼,這個(gè)數(shù)據(jù)集可能要到頭了,建議萌新們要發(fā)文章直接做2d多人或者3d。入門練手就隨意啦~
          首先看下單人姿態(tài)估計(jì)數(shù)據(jù)集MPII(MPII Human Pose Dataset)官方列出的榜單:http://human-pose.mpi-inf.mpg.de/#results
          截圖時(shí)間2020/07/27,最佳成績已經(jīng)達(dá)到94.1%。這篇結(jié)果是加了外源數(shù)據(jù)集的......大部分模型在mpll存在過擬合現(xiàn)象。
          下面由單人關(guān)鍵點(diǎn)檢測的經(jīng)典論文開場吧。
          1.Convolutional Pose Machines(2016)
          本論文將深度學(xué)習(xí)應(yīng)用于人體姿態(tài)分析,同時(shí)用卷積圖層表達(dá)紋理信息和空間信息。在2016年的MPII榜單中名列前茅。主要網(wǎng)絡(luò)結(jié)構(gòu)分為多個(gè)stage,各個(gè)階段都有監(jiān)督訓(xùn)練,避免過深網(wǎng)絡(luò)難以優(yōu)化的問題。通過改變卷積核大小來得到多個(gè)尺度輸入的特征和響應(yīng),既能確保精度,又考慮了各個(gè)部件之間的遠(yuǎn)距離關(guān)系。其中第一個(gè)stage會產(chǎn)生初步的關(guān)鍵點(diǎn)的檢測效果,接下來的幾個(gè)stage均以前一個(gè)stage的預(yù)測輸出和從原圖提取的特征作為輸入,進(jìn)一步提高關(guān)鍵點(diǎn)的檢測效果。
          2.Learning Feature Pyramids for Human Pose Estimation (ICCV2017)
          本文主要關(guān)注人體部件中的尺度問題,這種尺度變化主要發(fā)生在相機(jī)拍攝視角變化,設(shè)計(jì)了 Pyramid Residual Module (PRMs) 來增強(qiáng) CNN 網(wǎng)絡(luò)對尺度信息的提取能力。同時(shí)發(fā)現(xiàn)DCNNs多輸入或者多輸出層的初始化問題,以及發(fā)現(xiàn)在一些場景中激活變化累積是由identity mapping造成的, 對于這兩個(gè)問題作者分別提出解決的方法。
          3.Stacked Hourglass Networks for Human Pose Estimation(2017)
          Hourglass模塊設(shè)計(jì)的初衷就是為了捕捉每個(gè)尺度下的信息,因?yàn)椴蹲较衲槪诌@些部分的時(shí)候需要局部的特征,而最后對人體姿態(tài)進(jìn)行預(yù)測的時(shí)候又需要整體的信息。為了捕獲圖片在多個(gè)尺度下的特征,通常的做法是使用多個(gè)pipeline分別單獨(dú)處理不同尺度下的信息,然后再網(wǎng)絡(luò)的后面部分再組合這些特征,而作者使用的方法就是用帶有skip layers的單個(gè)pipeline來保存每個(gè)尺度下的空間信息。
          在Hourglass模塊中,卷積和max pooling被用來將特征降到一個(gè)很低的分辨率,在每一個(gè)max pooling步驟中,網(wǎng)絡(luò)產(chǎn)生分支并在原來提前池化的分辨率下使用更多的卷積,當(dāng)?shù)竭_(dá)最低的分辨率的時(shí)候,網(wǎng)絡(luò)開始upsample并結(jié)合不同尺度下的特征。這里upsample(上采樣)采用的方法是最鄰近插值,之后再將兩個(gè)特征集按元素位置相加。當(dāng)?shù)竭_(dá)輸出分辨率的時(shí)候,再接兩個(gè)1×1的卷積層來進(jìn)行最后的預(yù)測,網(wǎng)絡(luò)的輸出是一組heatmap,對于給定的heatmap,網(wǎng)絡(luò)預(yù)測在每個(gè)像素處存在關(guān)節(jié)的概率。
          4.Multi-Context Attention for Human Pose Estimation(2018)
          這篇文章整合多內(nèi)容信息注意力機(jī)制(multi-context attention mechanism)到CNN網(wǎng)絡(luò),得到人體姿態(tài)估計(jì) end-to-end 框架.采用堆積沙漏網(wǎng)絡(luò)(stacked hourglass networks) 生成不同分辨率特征的注意力圖(attention maps),不同分辨率特征對應(yīng)著不同的語義.并同時(shí)結(jié)合了整體注意力模型和肢體部分注意力模型,整體注意力模型針對的是整體人體的全局一致性,部分注意力模型針對不同身體部分的詳細(xì)描述. 因此,能夠處理從局部顯著區(qū)域到全局語義空間的不同粒度內(nèi)容.另外,設(shè)計(jì)了新穎的沙漏殘差單元(Hourglass Residual Units, HRUs),增加網(wǎng)絡(luò)的接受野. HRUs 擴(kuò)展了帶分支的殘差單元,分支的 filters 具有較大接受野;利用 HRUs 可以學(xué)習(xí)得到不同尺度的特征.
          5.A Cascaded Inception of Inception Network with Attention Modulated Feature Fusion for Human Pose Estimation(2018)
          本文提出了三種新技術(shù)。為人類姿勢巧妙地利用不同級別的特征進(jìn)行估計(jì)。首先,初始化(IOI)塊是旨在強(qiáng)調(diào)低級特征。其次,根據(jù)人體關(guān)節(jié)信息提出了注意機(jī)制來調(diào)整關(guān)節(jié)的重要性。第三,提出了一種級聯(lián)網(wǎng)絡(luò)來順序定位關(guān)節(jié)強(qiáng)制從獨(dú)立部件的關(guān)節(jié)傳遞消息像頭部和軀干到手腕或腳踝等遠(yuǎn)程關(guān)節(jié)。
          6.Deeply Learned Compositional Models for Human Pose Estimation(2018ECCV)
          這篇文章利用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)人體的組成。是具有分層組成架構(gòu)和自下而上/自上而下的推理階段的新型網(wǎng)絡(luò)。
          7.Human Pose Estimation with Spatial Contextual Information(2019)
          目前大多數(shù)網(wǎng)絡(luò)以多階段的方式進(jìn)行訓(xùn)練并加以優(yōu)化精細(xì)。在這個(gè)出發(fā)點(diǎn)上,作者提出了兩個(gè)簡單但有效的模塊,即Cascade Prediction Fusion(CPF)網(wǎng)絡(luò)用來預(yù)測關(guān)鍵點(diǎn)和Pose Graph Neural Network(PGNN), 用來對上級預(yù)測的關(guān)鍵點(diǎn)進(jìn)行修正。
          8.Cascade Feature Aggregation for Human Pose Estimation(2019)
          這篇文章是2019年mpll數(shù)據(jù)集結(jié)果達(dá)到93.3%那篇,相比其他論文,這篇文章達(dá)到這么高的評分,主要有三點(diǎn),一是,作者把stage2到stageN的heatmap的平均值作為最后輸出;二是作者通過實(shí)驗(yàn)得出stage1把resnet101作為backbone,后面的stage采用resnet50作為backbone效果最佳;三是作者引入了AI Challenger的數(shù)據(jù)集來擴(kuò)充訓(xùn)練數(shù)據(jù)。
          9.Toward fast and accurate human pose estimation via soft-gated skip connections(2020)
          這篇文章是2020年mpll數(shù)據(jù)集結(jié)果達(dá)到94.1%那篇。

          五、多人關(guān)鍵點(diǎn)檢測

          多人關(guān)鍵點(diǎn)檢測分自上而下自下而上兩種方法:
          自上而下(Top-Down)的人體骨骼關(guān)鍵點(diǎn)檢測算法主要包含兩個(gè)部分,目標(biāo)檢測和單人人體骨骼關(guān)鍵點(diǎn)檢測,對于目標(biāo)檢測算法,這里不再進(jìn)行描述,而對于關(guān)鍵點(diǎn)檢測算法,首先需要注意的是關(guān)鍵點(diǎn)局部信息的區(qū)分性很弱,即背景中很容易會出現(xiàn)同樣的局部區(qū)域造成混淆,所以需要考慮較大的感受野區(qū)域;其次人體不同關(guān)鍵點(diǎn)的檢測的難易程度是不一樣的,對于腰部、腿部這類關(guān)鍵點(diǎn)的檢測要明顯難于頭部附近關(guān)鍵點(diǎn)的檢測,所以不同的關(guān)鍵點(diǎn)可能需要區(qū)別對待;最后自上而下的人體關(guān)鍵點(diǎn)定位依賴于檢測算法的提出的Proposals,會出現(xiàn)檢測不準(zhǔn)和重復(fù)檢測等現(xiàn)象,大部分相關(guān)論文都是基于這三個(gè)特征去進(jìn)行相關(guān)改進(jìn)。
          自下而上(Bottom-Up)的人體骨骼關(guān)鍵點(diǎn)檢測算法主要包含兩個(gè)部分,關(guān)鍵點(diǎn)檢測和關(guān)鍵點(diǎn)聚類,其中關(guān)鍵點(diǎn)檢測和單人的關(guān)鍵點(diǎn)檢測方法上是差不多的,區(qū)別在于這里的關(guān)鍵點(diǎn)檢測需要將圖片中所有類別的所有關(guān)鍵點(diǎn)全部檢測出來,然后對這些關(guān)鍵點(diǎn)進(jìn)行聚類處理,將不同人的不同關(guān)鍵點(diǎn)連接在一塊,從而聚類產(chǎn)生不同的個(gè)體。而這方面的論文主要側(cè)重于對關(guān)鍵點(diǎn)聚類方法的探索,即如何去構(gòu)建不同關(guān)鍵點(diǎn)之間的關(guān)系。
          Part1:多人2d關(guān)鍵點(diǎn)檢測的算法(自上而下)
          1.RMPE: Regional Multi-Person Pose Estimation(2018)
          本論文主要考慮的是自上而下的關(guān)鍵點(diǎn)檢測算法在目標(biāo)檢測產(chǎn)生Proposals的過程中,可能會出現(xiàn)檢測框定位誤差、對同一個(gè)物體重復(fù)檢測等問題。檢測框定位誤差,會出現(xiàn)裁剪出來的區(qū)域沒有包含整個(gè)人活著目標(biāo)人體在框內(nèi)的比例較小,造成接下來的單人人體骨骼關(guān)鍵點(diǎn)檢測錯(cuò)誤;對同一個(gè)物體重復(fù)檢測,雖然目標(biāo)人體是一樣的,但是由于裁剪區(qū)域的差異可能會造成對同一個(gè)人會生成不同的關(guān)鍵點(diǎn)定位結(jié)果。本文提出了一種方法來解決目標(biāo)檢測產(chǎn)生的Proposals所存在的問題,即通過空間變換網(wǎng)絡(luò)將同一個(gè)人體的產(chǎn)生的不同裁剪區(qū) (Proposals)都變換到一個(gè)較好的結(jié)果,如人體在裁剪區(qū)域的正中央,這樣就不會產(chǎn)生對于一個(gè)人體的產(chǎn)生的不同Proposals有不同關(guān)鍵點(diǎn)檢測效果。
          2.Cascaded Pyramid Network for Multi-Person Pose Estimation(cpn)(2018)
          這篇文章是由Face++團(tuán)隊(duì)發(fā)表的COCO 17關(guān)鍵點(diǎn)的冠軍方案,本論文主要關(guān)注的是不同類別關(guān)鍵點(diǎn)的檢測難度是不一樣的,整個(gè)結(jié)構(gòu)的思路是先檢測比較簡單的關(guān)鍵點(diǎn)、然后檢測較難的關(guān)鍵點(diǎn)、最后檢測更難的或不可見的關(guān)鍵點(diǎn)。分為兩個(gè)stage,GlobalNet和RefineNet其中GlobalNet主要負(fù)責(zé)檢測容易檢測和較難檢測的關(guān)鍵點(diǎn),對于較難關(guān)鍵點(diǎn)的檢測,主要體現(xiàn)在網(wǎng)絡(luò)的較深層,通過進(jìn)一步更高層的語義信息來解決較難檢測的關(guān)鍵點(diǎn)問題;RefineNet主要解決更難或者不可見關(guān)鍵點(diǎn)的檢測,這里對關(guān)鍵點(diǎn)進(jìn)行難易程度進(jìn)行界定主要體現(xiàn)在關(guān)鍵點(diǎn)的訓(xùn)練損失上,使用了常見的Hard Negative Mining策略,在訓(xùn)練時(shí)取損失較大的top-K個(gè)關(guān)鍵點(diǎn)計(jì)算損失,然后進(jìn)行梯度更新,不考慮損失較小的關(guān)鍵點(diǎn)。
          3.Rethinking on Multi-Stage Networks for Human Pose Estimation(2019)
          時(shí)隔一年,F(xiàn)ace++團(tuán)隊(duì)又拿下了COCO 18關(guān)鍵點(diǎn)檢測冠軍。提出了多階段姿態(tài)估計(jì)網(wǎng)絡(luò)(MSPN)有三個(gè)新的技術(shù)。首先,當(dāng)前多階段方法中的單級模塊遠(yuǎn)非最優(yōu)。例如,沙漏在所有塊中使用相等寬度的通道用于向下和向下提取。這種設(shè)計(jì)與當(dāng)前網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)(ResNet)不一致。作者發(fā)現(xiàn)采用現(xiàn)有良好的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行下采樣路徑和簡單的上采樣路徑要好很多。其次,由于重復(fù)的向下和向上采樣步驟,信息更容易丟失,優(yōu)化變得更加困難。作者建議在不同階段匯總特征以加強(qiáng)信息流動(dòng)并減輕培訓(xùn)的難度。最后,觀察姿勢定位精度逐漸提高。在多階段,作者采取粗到細(xì)的多監(jiān)督方式。
          4.Spatial Shortcut Network for Human Pose Estimation(2019)
          現(xiàn)有的基于姿態(tài)估計(jì)的方式,是通過逐像素分類實(shí)現(xiàn)的,這種方式是考慮不到大范圍的空間信息的。舉例來說:由于肘關(guān)節(jié)的外觀與膝關(guān)節(jié)非常相似,對于一個(gè)感受野僅能覆蓋肘關(guān)節(jié)本身的小特征提取器,很難將兩者區(qū)分開來。但如果感受野能同時(shí)看到附近的手腕或肩膀,那么將其歸類為肘部就容易得多。在涉及姿態(tài)估計(jì)的方法中,需要抑制非主要人體部位的檢測。對卷積網(wǎng)絡(luò)而言,只要將網(wǎng)絡(luò)變的更深,或者增大卷積核,就能夠促進(jìn)空間信息流動(dòng),我們就可以增加最終特征的感受野。感受野增加了,上述提到的問題能夠被較好的解決。然而不論是大卷積核還是深網(wǎng)絡(luò),這對計(jì)算和訓(xùn)練都帶來了較大的挑戰(zhàn)。為了空間信息能夠低成本的流動(dòng),本文提出了一種針對于姿態(tài)估計(jì)任務(wù)的空間連接網(wǎng)絡(luò),使信息在空間上的流動(dòng)更容易。本文提出的網(wǎng)絡(luò)為spatial shortcut network (SSN)。該網(wǎng)絡(luò)將特征映射移動(dòng)和注意機(jī)制結(jié)合在一個(gè)稱為特征移動(dòng)模塊feature shifting module(FSM)中。該模塊在參數(shù)數(shù)量和計(jì)算成本上都與普通卷積層一樣輕量,并可以插入到網(wǎng)絡(luò)的任何部分來補(bǔ)充空間信息。
          5.Deep High-Resolution Representation Learning for Human Pose Estimation (2019CVPR)
          HRNet的體系結(jié)構(gòu)。它由并行的高到低分辨率子網(wǎng)組成,并在多分辨率子網(wǎng)之間進(jìn)行重復(fù)的信息交換(多尺度融合)。即模型是通過在高分辨率特征圖主網(wǎng)絡(luò)中逐漸并行的加入低分辨率特征圖子網(wǎng)絡(luò),不同網(wǎng)絡(luò)實(shí)現(xiàn)多尺度融合與特征提取實(shí)現(xiàn)的。
          Part2:多人2d關(guān)鍵點(diǎn)檢測的算法(自下而上)
          1.OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields(IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE2019)
          目前,已經(jīng)有了許多關(guān)于檢測的工作。許多的檢測方式都是先想辦法檢測出身體的部位的關(guān)節(jié)點(diǎn),然后再連接這些部位點(diǎn)得到人的姿態(tài)骨架。本文的工作差不多也是這個(gè)套路,但是為了快速的把點(diǎn)連到一起,提出了Part Affinity Fields這個(gè)概念來實(shí)現(xiàn)快速的關(guān)節(jié)點(diǎn)連接。
          2.Single-Network Whole-Body Pose Estimation(ICCV2019)
          本文提出了第一個(gè)二維全身姿態(tài)估計(jì)的單網(wǎng)絡(luò)方法,它要求同時(shí)定位身體、臉、手和腳的關(guān)鍵點(diǎn)。方法在OpenPose的基礎(chǔ)上有了很大的改進(jìn),OpenPose是目前為止唯一能夠在速度和全局精度方面進(jìn)行全身姿態(tài)估計(jì)的方法。與OpenPose不同的是,本文的方法不需要為每只手和每一張臉的候選對象運(yùn)行一個(gè)額外的網(wǎng)絡(luò),這使得它在多人場景中運(yùn)行速度大大提高。速度: 在測試時(shí),無論檢測到多少人,本文的單網(wǎng)絡(luò)方法都提供了一個(gè)恒定的實(shí)時(shí)推斷,大約比最先進(jìn)的(OpenPose)的n人圖像快n倍。準(zhǔn)確性: 方法也比之前的OpenPose產(chǎn)生了更高的準(zhǔn)確性,特別是在臉部和手部關(guān)鍵點(diǎn)檢測上,更適用于遮擋、模糊和低分辨率的臉部和手部。

          六、3D關(guān)鍵點(diǎn)檢測的算法

          可參見《3D Pose Estimation關(guān)鍵點(diǎn)檢測的算法整理
          鏈接:https://zhuanlan.zhihu.com/p/164603050

          七、2020CVPR姿態(tài)估計(jì)相關(guān)文章跟新

          1.Distribution-Aware Coordinate Representation for Human Pose Estimation (2020cvpr)
          在這項(xiàng)工作中,本文第一次系統(tǒng)地研究了在圖像中用于人體姿勢估計(jì)的坐標(biāo)表示(包括編碼和解碼)在很大程度上被忽略但仍很重要的問題。不僅揭示了該問題的真正意義,而且還提出了一種新穎的關(guān)鍵點(diǎn)坐標(biāo)表示(DARK),以進(jìn)行更具判別性的模型訓(xùn)練和推理。作為現(xiàn)成的插件組件,現(xiàn)有的最新模型可以從此方法中無縫受益,而無需進(jìn)行任何算法調(diào)整。
          論文地址:https://arxiv.org/abs/1910.06278
          代碼:https://github.com/ilovepose/DarkPose
          2.The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation(2020cvpr)
          解決兩個(gè)方面的問題:一個(gè)是在測試過程中,如果使用flip ensemble時(shí),由翻轉(zhuǎn)圖像得到的結(jié)果和原圖得到的結(jié)果并不對齊。另外一個(gè)是使用的編碼解碼(encoding-decoding)方法存在較大的統(tǒng)計(jì)誤差。
          論文地址:https://arxiv.org/abs/1911.07524
          3.4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras(2020cvpr)
          用圖網(wǎng)絡(luò)進(jìn)行多人3d姿態(tài)估計(jì)并且具有實(shí)時(shí)性。
          論文地址:https://arxiv.org/abs/2002.12625
          4.VIBE: Video Inference for Human Body Pose and Shape Estimation(2020cvpr)
          貢獻(xiàn):
          1、改進(jìn)了回歸器model-based fitting-in-the-loop的訓(xùn)練方法,并應(yīng)用到視頻上;
          2、使用了AMASS數(shù)據(jù)集來進(jìn)行對抗訓(xùn)練,來使回歸器產(chǎn)生更加逼真與合理的人體形態(tài);
          3、通過定量實(shí)驗(yàn)比較了3D人體形態(tài)估計(jì)方法的不同temporal結(jié)構(gòu);
          4、通過使用運(yùn)動(dòng)捕捉數(shù)據(jù)的大型數(shù)據(jù)集來訓(xùn)練鑒別器,實(shí)現(xiàn)了SOTA的性能。
          論文地址:https://arxiv.org/abs/1912.05656
          代碼:https://github.com/mkocabas/VIBE
          發(fā)文章初衷是學(xué)習(xí)筆記,如有不對的地方還請多多指教~
          參考資料:https://blog.csdn.net/sigai_csdn/article/details/80650411
          推薦閱讀

          添加極市小助手微信(ID : cv-mart),備注:研究方向-姓名-學(xué)校/公司-城市(如:目標(biāo)檢測-小極-北大-深圳),即可申請加入極市技術(shù)交流群,更有每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、行業(yè)技術(shù)交流一起來讓思想之光照的更遠(yuǎn)吧~

          △長按添加極市小助手

          △長按關(guān)注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個(gè)在看啦~??
          瀏覽 116
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文无码在线综合网 | 中国学生妹黄色一级片免费看 | 欧洲超清一区二区三区视频 | 影音先锋成人av电影 | 亚洲精品少妇 |