Efficient-HRNet | EfficientNet思想+HRNet技術會不會更強更快呢?


許多新興智能物聯(lián)網應用對輕量級多人姿勢估計的需求越來越大。然而,現(xiàn)有算法往往具有較大的模型尺寸和密集的計算需求,使得它們不適合實時應用和在資源受限的硬件上部署。輕量級和實時的方法非常罕見,更多都是以低的精度為代價。
在本文中提出了
EfficientHRNet,這是一個輕量級多人人體姿勢估計器,能夠在資源受限的設備上實時執(zhí)行。通過將模型縮放的最新進展與高分辨率特征表示相結合,EfficientHRNet可以創(chuàng)建高精確的模型,同時減少計算量以實現(xiàn)實時性能。最大的模型能夠達到當前最先進技術的4.4%的精度差距以內,同時具有1/3的模型尺寸和1/6的計算,在Nvidia Jetson Xavier上達到23 FPS。與頂級實時方法相比,EfficientHRNet提高了22%的精度,同時以1/3的功率實現(xiàn)了類似的FPS。在每一個層面上,EfficientHRNet都被證明比其他自下而上的2D人體姿勢估計方法更具計算效率,同時達到了極具競爭力的精度。
1、簡介
2D人體姿態(tài)估計是許多流行的智能應用程序中常用的任務,近年來取得了長足進展。2D人體姿態(tài)估計有兩種主要方法。第一種是自上而下的方法,其中提供了人類的裁剪圖像,網絡使用這些裁剪圖像生成人類關鍵點。自頂向下方法依賴于目標檢測器來提供初始人類作物,因此它們通常具有相對較高的計算成本,并且不是真正的端到端方法。第二種是自下而上的方法,網絡從原始圖像開始工作,并為圖像中的所有人生成人類關鍵點。雖然這些方法往往達不到最先進的自頂向下方法所能達到的精度,但它們的模型大小和計算開銷相對較低。即使如此,最先進的自下而上方法仍然相當大,計算成本也很高。目前的最先進技術有6380萬個參數(shù),需要1543億浮點運算。
許多新興的物聯(lián)網(IoT)應用程序需要在攝像機旁邊的邊緣進行輕量級實時多人姿勢估計。這在廣泛的智能互聯(lián)應用程序中更為明顯,這些應用程序需要持續(xù)的人類活動分析和行為監(jiān)控。視頻監(jiān)控、患者監(jiān)控和公共安全等例子很少。所有這些應用程序都需要能夠在物聯(lián)網邊緣設備上靠近攝像頭運行的靈活但高度準確的人體姿勢估計。盡管如此,對于開發(fā)能夠在有限的計算資源下實時執(zhí)行的輕量級自下而上方法,卻缺乏關注。為了解決這一差距,需要一系列輕量級實時人體姿勢估計模型,這些模型的精度與最先進的方法相當。
在本文中提出了EfficientHRNet,這是一個輕量級可擴展網絡家族,用于高分辨率和高效的實時自下而上的多人姿勢估計。EfficientHRNet統(tǒng)一了最先進的EfficientNet和HRNet的原理,并提出了一種新的公式,可以實現(xiàn)接近最先進的人體姿勢估計,同時比所有其他自下而上的方法更具計算效率。
與HRNet類似,EfficientHRNet使用多種功能分辨率來生成關鍵點,但效率更高。同時,它使用EfficientNet作為主干,并調整其縮放方法,以更好地適合人類姿勢估計。為了實現(xiàn)輕量級實時執(zhí)行,EfficientHRNet進一步擴展了EfficientNet公式,不僅可以縮小基線,還可以聯(lián)合縮小輸入分辨率、高分辨率網絡和熱圖預測網絡。通過這一點能夠創(chuàng)建一系列網絡,這些網絡能夠解決實時2D人體姿勢估計的整個領域,同時能夠靈活滿足應用程序的精度和計算要求。

作者評估了COCO數(shù)據集的準確性和英偉達NX Xavier的實時性能。圖1展示了本文的模型如何在較低的計算成本下提供與直接模型相同或更高的精度。
與最先進的模型相比,基線EfficientNet在精度方面具有競爭力,但需要的計算量要少得多,因此推斷速度更快。與HRNet相比,EfficientHRNet的精度提高了0.4%,同時計算需求減少了34%。與HigherHRNet和PersonLab相比,EfficientHRNet的準確度下降了1.7%至5.1%,計算需求下降了83%至93%,令人印象深刻。這導致FPS比HigherHRNet增加3.4倍。
即使與專門為輕量級執(zhí)行而設計的模型(如lightweight OpenPose)相比,縮小的EfficientHRNet也能夠實現(xiàn)10.1%的精度超越,同時進一步減少15%的計算量,保持相似的FPS。
此外,已在ImageNet上對縮小的主干模型進行了單獨評估。結果表明,在取得比同行更高的效率的同時,具有競爭力的準確性。
總之,本文有以下貢獻:
將 EfficientHRNet作為第一種方法為自下而上的實時多人2D人體姿勢估計提供輕量級、可縮放的模型,從而達到與最先進技術相當?shù)木取?/section>提出了一種新的公式,將 EfficientNet的可擴展性整合到整個高分辨率網絡中,以降低計算復雜性并允許實時執(zhí)行。是第一個提供向下縮放公式創(chuàng)建一系列緊湊的 EfficientNet模型,這些模型可擴展到計算能力受限的嵌入式和邊緣物聯(lián)網設備的基線以下。對具有挑戰(zhàn)性的 COCO數(shù)據集進行了全面分析,以顯示模型在準確性、模型大小、計算復雜性、效率和實時執(zhí)行方面與最先進和實時方法的對比情況。對最先進的嵌入式物聯(lián)網 GPU(Nvidia Jetson NX)進行了廣泛的性能分析,以證明EfficientHRNet相對于現(xiàn)有算法的執(zhí)行優(yōu)勢。
2、相關工作
2.1、Top-down Methods
自頂向下的方法依賴于首先使用對象檢測器識別圖像中的所有人,然后在定義的邊界框內檢測單個人的關鍵點。這些單人和多人姿勢估計方法通常使用對象檢測器生成人物邊界框。例如,RMPE在單人姿勢估計器疊加沙漏網絡的基礎上添加對稱空間變換網絡,以從不精確的邊界框中獲得高質量的區(qū)域,然后使用參數(shù)非最大值抑制檢測姿勢。
2.2、Bottom-up Methods
自底向上方法檢測圖像中的無身份關鍵點,并使用各種關鍵點分組技術將其分組為人。方法類似于并通過整數(shù)線性程序和非最大值抑制執(zhí)行分組。與具有幾乎相似精度的自頂向下方法相比,這允許更快的推理時間。其他方法通過使用貪婪分組技術以及其他優(yōu)化進一步改進預測時間。例如,OpenPose是一個多階段網絡,其中一個分支以熱圖的形式檢測關鍵點,而另一個分支生成用于將關鍵點彼此關聯(lián)的Part Affinity Fields。
分組是通過計算所有關鍵點之間的線積分并對積分最高的一對進行分組來完成的。輕量級OpenPose用MobileNet取代更大的主干網,以更少的參數(shù)和FLOP實現(xiàn)實時性能,同時降低準確性。PifPaf使用“零件強度場”檢測身體部位,使用“零件關聯(lián)場”將零件相互關聯(lián)以形成人體姿勢。堆疊沙漏網絡用于預測熱圖和分組關鍵點。
分組是通過為每個關鍵點分配一個嵌入(稱為標記),然后根據標記向量之間的L2距離關聯(lián)這些關鍵點來完成的。
2.3、Multi-scale High-Resolution Networks
特征金字塔網絡增強了多尺度表示,廣泛應用于復雜和必要的計算機視覺應用,如分割和姿勢估計。使用上采樣、擴展卷積和反卷積等技術恢復高分辨率特征圖在目標檢測、語義分割和姿勢估計方面也非常流行。此外,有幾項工作側重于直接生成高分辨率特征圖。
HRNet建議在整個網絡中維護高分辨率特征圖。HRNet由跨多個階段具有不同分辨率的多個分支組成。通過多尺度融合,HRNet能夠生成高分辨率的特征地圖,并將其應用于目標檢測、語義分割和姿勢估計,從而獲得顯著的精度。
最近,提出了用于多人姿勢估計的HigherHRNet,它使用HRNet作為基礎網絡來生成高分辨率特征圖,并進一步添加了反卷積模塊來預測準確、高質量的熱力圖。HigherHRNet在COCO數(shù)據集上實現(xiàn)了一流的精度,超過了所有現(xiàn)有的自底向上方法。本文采用HigherHRNet原理,通過多尺度融合生成高分辨率特征圖預測高質量的熱力圖。
2.4、Model Scaling
以前關于自底向上姿勢估計的工作通常依賴于大型主干網絡,如ResNet或VGGNet,或大輸入分辨率和多尺度訓練,以達到最先進的精度。最近的一些工作表明,增加其他相同模型的通道尺寸可以進一步提高精度。EfficientNet和RegNet表明,通過聯(lián)合縮放網絡寬度、深度和輸入分辨率,與以前使用更大模型的先進網絡相比,可以實現(xiàn)更好的圖像分類效率。最近,EfficientNet的精簡模型刪除了一些元素,例如squeeze and excite層和swish層,使網絡更加硬件友好。
受EfficientNet啟發(fā),EfficientDet提出了一種用于目標檢測的復合縮放方法以及高效的多尺度特征融合。對于多人姿勢估計,尤其是嵌入式設備,缺乏有效的縮放方法。對于注重實時性能的計算機視覺應用,需要具有可擴展性和相對精確性的輕量級姿態(tài)估計模型。作者提出的復合縮放也受到了EfficientNet的啟發(fā),是一種聯(lián)合縮放EfficientHRNet的寬度、深度和輸入分辨率以及高分辨率模塊內的重復的方法。此外,這種復合縮放允許EfficinentNet主干擴展到B0以下,從而創(chuàng)建更輕的模型。
2.5、Real-Time Pose Estimation
雖然該領域的大多數(shù)工作都側重于孤立的準確性,但最近的一些工作已經發(fā)展起來,將重點更多地轉移到實時推斷上。專注于實時執(zhí)行,使用密集連接的殘差模塊和高分辨率特征圖,實現(xiàn)精確和輕量級的單人姿勢估計,能夠在Nvidia 1080TI上實現(xiàn)39 FPS。Lightweight OpenPose將OpenPose修改為使用MobileNet主干和更少的細化階段,并使用Intel OpenVINO Toolkit在Intel NUC 6i7KYB上獲得28 FPS。Nvidia還專注于實時推理,發(fā)布了trt位姿,這是一種使用TensorRT和DeepStream優(yōu)化的單人位姿估計模型,在英偉達Jetson Xavier上實現(xiàn)了高達251幀/秒的速度。
3、本文方法

3.1、Network Architecture and Formulation
1、Backbone Network
EfficientHRNet的第一個階段是主干,由修改后的EfficientNet組成,其比例低于基線。主干輸出四個不同分辨率的特征圖,分辨率為輸入圖像大小的1/4、1/8、1/16和1/32。這些特征圖被傳遞到網絡主體中,稱為高分辨率網絡。
2、High-Resolution Network
高分辨率網絡的靈感來自HRNet和HigherHRNet。借用這些高分辨率網絡的原理帶來了兩大優(yōu)勢:
通過在整個網絡中維護多個高分辨率特征表示,可以生成具有更高空間精度的熱力圖。 重復的多尺度融合允許高分辨率特征表示通知低分辨率表示,反之亦然,從而產生理想的魯棒多分辨率特征表示用于多人姿勢估計。
圖2顯示了EfficientHRNet的詳細架構圖。它顯示了3個子網絡:主干網絡、高分辨率網絡和熱圖預測網絡。它還提供了顯示網絡如何縮放輸入分辨率和特征圖寬度的方程。
高分辨率網絡有3個階段、和,包含4個不同分辨率的并行分支、、和。第一階段從兩個分支和開始,每個連續(xù)階段添加一個額外的分支,直到所有4個分支都出現(xiàn)在中。這4個分支分別由寬度為的高分辨率模塊組成。每個分支都包含反映主干網絡輸出分辨率的降低分辨率的特征表示,如圖2和以下等式所示:

例如,第2級()有3個分支,分辨率為原始輸入圖像分辨率的1/4、1/8和1/16,寬度為。此外,每個高分辨率模塊由多個塊組成,每個塊包含2個殘差塊,每個殘差塊通過殘差連接執(zhí)行3次卷積操作。
3、Heatmap Prediction Network
熱力圖預測網絡用于生成人類關鍵點預測。為了預測更準確的熱力圖,在高分辨率網絡的頂部添加了一個DeConv塊。轉置卷積用于生成高質量的特征圖,其分辨率為原始輸入分辨率的1/2。DeConv塊的輸入是特征圖和來自高分辨率網絡的預測熱圖的串聯(lián),如下式所示:

反卷積后添加兩個殘差塊,以細化上采樣特征圖。在DeConv塊之后,使用1×1卷積預測熱力圖和標記圖,每個熱力圖的特征圖大小如下所示:

分組過程通過將標簽具有最小L2距離的關鍵點分組,將關鍵點分組為多個人。高分辨率網絡具有尺度感知能力,在訓練期間對熱圖使用多分辨率監(jiān)控,使網絡能夠更精確地學習,即使是對小尺度人也是如此。根據GT生成不同分辨率的熱力圖,以匹配不同尺度的預測關鍵點。
因此,最終熱力圖損失是所有分辨率的均方誤差之和。然而,由于高分辨率標記映射不能很好地收斂,標記映射的分辨率是原始輸入分辨率的1/4。
3.2、Compound Scaling Method
本節(jié)詳細介紹了復合縮放方法,該方法可聯(lián)合縮放EfficientHRNet的所有部分,如圖2和表1所示。EfficientHRNet的目標是提供一系列針對精度和效率進行優(yōu)化的模型,這些模型可以縮放以滿足不同的內存和計算約束集。
以前關于自下而上的人體姿勢估計和語義分割的工作主要通過使用更大的主干網絡(如ResNet和VGGNet)、使用較大的輸入圖像大小或使用多尺度訓練來實現(xiàn)高精度來縮放基礎網絡。然而,這些方法僅依賴于單個維度的縮放,其效果有限。
最近的研究表明,通過聯(lián)合縮放寬度、深度和輸入圖像分辨率,圖像分類具有顯著的性能。受EfficientNet啟發(fā),EfficientDet提出了一種類似的目標檢測復合縮放方法,它聯(lián)合縮放主干網絡、多尺度特征網絡和目標檢測器網絡。
本文使用EfficientHRNet為計算機視覺應用提出了一種基于啟發(fā)式的復合縮放方法,特別是自底向上的人體姿勢估計和語義分割。EfficientHRNet的方法使用縮放系數(shù)來聯(lián)合縮放主干網絡、高分辨率網絡和任務頭。更準確地說,EfficientNet主干網的規(guī)??s小到基線以下,而EfficicentHRNet的其余部分則縮小到基線之下,以便在創(chuàng)建輕量級靈活網絡的同時保持接近最先進的準確性。
1、Backbone Network
寬度和深度縮放系數(shù)與EfficientNet保持相同。為了滿足在受限設備上運行模型的需求,提供了一種新的公式,用于將EfficientNet擴展到基線以下,并使其成為更緊湊的模型。
從基線EfficientNet-B0縮放系數(shù)開始:

(=-1,-2,-3,-4)被倒置,以計算緊湊型EfficientNet模型的縮放倍數(shù),其符號為,,和。例如,為了獲得基線分辨率224,并針對,從(4)中取r,=?1可以得到分辨率縮放系數(shù)為,即0.87,那么縮放分辨率大小ceil(224?0.87)=195。此模式對到重復,可以在表2中看到訓練這些緊湊的EfficientNet模型(到) 并使用EfficientHRNet中主干網絡的結果模型。
2、High-Resolution Network
高分辨率網絡有3個階段和4個分支,具有4種不同的特征圖尺寸。每個分支n也有不同的寬度,基線模型每個分支的寬度分別為32、64、128和256。有選擇地選取1.25的寬度比例因子,并使用以下公式縮小寬度:

其中n是一個特定的分支數(shù),是復合標度系數(shù)。

此外,在每個階段內,每個高分辨率模塊都有多個重復多次的塊Msn,如表1所示。在基線EfficientHRNet 模型中,每個階段內的塊分別重復1、4和3次。作者發(fā)現(xiàn)第三階段的重復次數(shù)對準確度的影響最大。因此,隨著模型的縮小,高分辨率模塊內的重復次數(shù)呈線性減少,從第2階段開始,直到達到單個重復,然后再轉到第3階段,如表1所示。
3、Heatmap Prediction Network
DeConv塊的縮放方式與高分辨率網絡的寬度相同(5)。熱圖預測網絡輸出標簽和熱圖,其寬度在所有模型中保持不變。
4、Input Image Resolution
EfficientNet將原始輸入圖像分辨率分層采樣降低32倍。因此,EfficientHRNet的輸入分辨率必須可除以32,并按線性比例縮小,如下式所示:

4、實驗
4.1、ImageNet

4.2、COCO-Pose


4.3、可視化結果

5、參考
[1].EfficientHRNet:Efficient and Scalable High-Resolution Networks for Real-Time Multi-Person 2D Human Pose Estimation.
6、推薦閱讀
DETR也需要學習 | DETR-Distill模型蒸餾讓DETR系類模型持續(xù)發(fā)光發(fā)熱!?。?/a>
目標檢測落地技能 | 擁擠目標檢測你是如何解決的呢?改進Copy-Paste解決擁擠問題!
掃描上方二維碼可聯(lián)系小書童加入交流群~
想要了解更多前沿AI視覺感知全棧知識【分類、檢測、分割、關鍵點、車道線檢測、3D視覺(分割、檢測)、多模態(tài)、目標跟蹤、NerF】、行業(yè)技術方案【AI安防、AI醫(yī)療、AI自動駕駛以及AI元宇宙】、AI模型部署落地實戰(zhàn)【CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平線框架等】,歡迎掃描下方二維碼,加入集智書童知識星球,日常分享論文、學習筆記、問題解決方案、部署方案以及全棧式答疑,期待交流!
