人類高質(zhì)量視覺模型YOLOP開源:同時(shí)處理三大視覺任務(wù),還能各種超越SOTA…

極市導(dǎo)讀
華中科技大學(xué)王興剛團(tuán)隊(duì)近日開源了一項(xiàng)在全景駕駛感知方面的工作,該工作能夠同時(shí)進(jìn)行交通目標(biāo)檢測(cè)、駕駛區(qū)域分割以及車道線檢測(cè),并且在三個(gè)任務(wù)上都取得了SOTA。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

arXiv:https://arxiv.org/abs/2108.11250
code:https://github.com/hustvl/YOLOP
code@opencv:https://github.com/hpc203/YOLOP-opencv-dnn
本文是華中科技大學(xué)王興剛團(tuán)隊(duì)在全景駕駛感知方面的工作,提出了一種能夠在嵌入式平臺(tái)上實(shí)時(shí)處理三個(gè)感知任務(wù)(目標(biāo)檢測(cè)、可駕駛區(qū)域分割、車道線檢測(cè))的方案YOLOP。所提YOLOP不僅具有超高的推理速度,同時(shí)在極具挑戰(zhàn)性的BDD100K三個(gè)任務(wù)上均取得了非常優(yōu)異的性能。
Abstract
全景駕駛感知系統(tǒng)是自動(dòng)駕駛非常重要的一部分,實(shí)時(shí)高精度感知系統(tǒng)可以幫助車輛作出合理的駕駛決策。
我們提出一種全景駕駛感知網(wǎng)絡(luò)YOLOP同時(shí)進(jìn)行交通目標(biāo)檢測(cè)、駕駛區(qū)域分割以及車道線檢測(cè)。YOLOP包含一個(gè)用于特征提取的編碼,三個(gè)用于處理特定任務(wù)的解碼器。所提方案在極具挑戰(zhàn)的BDD100K數(shù)據(jù)集上表現(xiàn)非常好,從精度與速度角度來看,所提方法在三個(gè)任務(wù)上取得了SOTA性能。此外,我們還通過消融實(shí)驗(yàn)驗(yàn)證了多任務(wù)學(xué)習(xí)模型的有效性。
據(jù)我們所知,該工作是首個(gè)可以在嵌入式設(shè)備(Jetson TX2)上實(shí)時(shí)處理三個(gè)視覺任務(wù)的方案,同時(shí)具有非常優(yōu)異的精度。

Method

上圖給出了本文所提方案YOLOP的網(wǎng)絡(luò)架構(gòu)示意圖,它是一種單階段網(wǎng)絡(luò),包含一個(gè)共享編碼器,三個(gè)用于特定任務(wù)的解碼器。不同解碼器之間并沒有復(fù)雜的、冗余共享模塊,這可以極大降低計(jì)算量,同時(shí)使得該網(wǎng)絡(luò)易于端到端訓(xùn)練。
Encoder
該網(wǎng)絡(luò)中的編碼器由骨干網(wǎng)絡(luò)與Neck網(wǎng)絡(luò)構(gòu)成:
Backbone :骨干網(wǎng)絡(luò)用于提取輸入圖像的特征,考慮到Y(jié)OLOv4在目標(biāo)檢測(cè)中的優(yōu)異性能,我們選擇CSPDarkNet作為骨干網(wǎng)絡(luò)。
Neck :Neck用于對(duì)骨干網(wǎng)絡(luò)提取的特征進(jìn)行融合,我們主要采用了SPP與FPN構(gòu)建Neck模塊。SPP用于生成融合不同尺度的特征;FPN則在不同語義層面融合特征,使得生成特征包含多尺度、多語義級(jí)信息。
Decoders
YOLOP包含三個(gè)用于三個(gè)任務(wù)的解碼器:
Detect Head 類似YOLOv4,我們采用了基于Anchor的多尺度檢測(cè)機(jī)制。首先,我們采用PAN進(jìn)行更優(yōu)特征融合,然后采用融合后特征進(jìn)行檢測(cè):多尺度特征的每個(gè)grid被賦予三個(gè)先驗(yàn)anchor(包含不同縱橫比),檢測(cè)頭將預(yù)測(cè)位置偏移、高寬、類別概率以及預(yù)測(cè)置信度。
Driable Area Segment Head & Lane Line Segment Head 駕駛區(qū)域分割頭與車道線分割頭采用了相同結(jié)構(gòu)。我們將FPN的輸出特征(分辨率為)送入到分割分支。我們?cè)O(shè)計(jì)的分割分支非常簡(jiǎn)單,通過三次上采樣處理輸出特征尺寸為,代表每個(gè)像素是駕駛區(qū)域/車道線還是背景的概率。由于Neck中已包含SPP模塊,我們并未像PSPNet添加額外的SPP模塊。此外,我們采用了最近鄰上采樣層以降低計(jì)算量。因此,分割解碼器不僅具有高精度輸出,同時(shí)推理速度非???。
Loss Function
由于該網(wǎng)絡(luò)包含三個(gè)解碼器,故多任務(wù)損失包含三部分:
Detection Loss :它是分類損失、目標(biāo)檢測(cè)以及目標(biāo)框損失的加權(quán)和,描述如下:
其中:為用于降低類別不平衡的Focal Loss,則采用了CIoU損失。
分割:采用帶Logits的交叉熵?fù)p失。必須要提到的是:中添加了IoU損失。因此,這兩個(gè)損失的定義如下:
總而言之,最終的損失是由上述三個(gè)損失加權(quán)得到:
Training Paradigm
我們嘗試了不同范式訓(xùn)練上述模型。最簡(jiǎn)單的是端到端訓(xùn)練,然后三個(gè)任務(wù)可以進(jìn)行聯(lián)合學(xué)習(xí)。當(dāng)所有任務(wù)相當(dāng)時(shí),這種訓(xùn)練范式非常有用。此外,我們也嘗試了交替優(yōu)化算法:即每一步聚焦于一個(gè)或多個(gè)相關(guān)任務(wù),而忽視不相關(guān)任務(wù)。下圖給出了本文所用到的step-by-step訓(xùn)練方案。

Experiments
Setting
Dataset Setting 訓(xùn)練數(shù)據(jù)采用了BDD100K,其中70K用于訓(xùn)練,10K用作驗(yàn)證,20K用于測(cè)試。由于測(cè)試數(shù)據(jù)無標(biāo)簽,故我們?cè)隍?yàn)證數(shù)據(jù)集上進(jìn)行評(píng)估。
Implementation Details 為提升模型性能,我們采用了一些實(shí)用技術(shù)與數(shù)據(jù)增廣策略。比如,采用K-means聚類生成anchor先驗(yàn)信息;warm-up與cosine學(xué)習(xí)率衰減機(jī)制;Photometric distortion與Geometric distortion數(shù)據(jù)增廣策略。
Result
在這里,我們采用簡(jiǎn)單的端到端訓(xùn)練方式,將所得結(jié)果與其他方案進(jìn)行對(duì)比。

Traffic Object Detection Result 上表給出了所提方案與其他方案的檢測(cè)性能對(duì)比,從中可以看到:
從檢測(cè)精度來看,YOLOP優(yōu)于Faster R-CNN、MultiNet以及DLTNet,并與使用大量訓(xùn)練trick的YOLOv5s相當(dāng);
從推理耗時(shí)來看,YOLOv5s更快,因?yàn)閅OLOP不僅要進(jìn)行檢測(cè)還要進(jìn)行分割,而YOLOv5s僅需進(jìn)行檢測(cè)。交通目標(biāo)檢測(cè)結(jié)果見下圖。


Drivable Area Segmentation Result 上表給出了駕駛區(qū)域分割性能對(duì)比,從中可以看到:
從推理速度來看,所提方法要比其他方案快4-5倍。
從性能角度來看,所提方案以19.9%、20.2%以及1.9%優(yōu)于MultiNet、DLTNet以及PSPNet。分割結(jié)果可參考下圖。


Lane Detection Result 上表給出了車道線檢測(cè)性能對(duì)比,可以看到:所提方案性能遠(yuǎn)超其他三個(gè)方案,下圖給出了車道線檢測(cè)結(jié)果示意圖。

Ablation Studies
我們?cè)O(shè)計(jì)了兩個(gè)消融實(shí)驗(yàn)進(jìn)一步說明所提方案的有效性。

End-to-End vs Step-by-Step 上表給出了不同訓(xùn)練機(jī)制的性能對(duì)比,從中可以看到:
通過端到端訓(xùn)練,所提YOLOP已經(jīng)表現(xiàn)的非常好,沒有必要再進(jìn)行交替訓(xùn)練優(yōu)化;
然而,我們發(fā)現(xiàn):先訓(xùn)練檢測(cè)任務(wù)可以取得更高精度。

Multi-task vs Single-task 上表對(duì)比了多任務(wù)與單任務(wù)機(jī)制的性能,從中可以看到:多任務(wù)機(jī)制可以取得與聚焦單一任務(wù)訓(xùn)練相當(dāng)?shù)男阅?/strong> ;重要的是,相比獨(dú)立執(zhí)行每個(gè)任務(wù),多任務(wù)訓(xùn)練可以節(jié)省大量的時(shí)間。
如果覺得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“86”獲取CVPR 2021:針對(duì)域自適應(yīng)目標(biāo)檢測(cè)的域特異性特征直播分享PPT下載~

# 極市平臺(tái)簽約作者#
happy
知乎:AIWalker
AIWalker運(yùn)營(yíng)、CV領(lǐng)域八年深耕碼農(nóng)
研究領(lǐng)域:專注low-level領(lǐng)域,同時(shí)對(duì)CNN、Transformer、MLP等前沿網(wǎng)絡(luò)架構(gòu)保持學(xué)習(xí)心態(tài),對(duì)detection的落地應(yīng)用甚感興趣。
公眾號(hào):AIWalker
作品精選
ResNet被全面超越了,是Transformer干的:依圖科技開源“可大可小”T2T-ViT,輕量版優(yōu)于MobileNet
何愷明團(tuán)隊(duì)最新力作SimSiam:消除表征學(xué)習(xí)“崩潰解”,探尋對(duì)比表達(dá)學(xué)習(xí)成功之根源


