免费手机在线看日韩,婷婷色在线视频,日韩午夜在线观看,亚洲无码动漫在线观看,91精品国产综合久久久果冻传媒,色情视频在线观看,少妇的逼,亚洲AV无码AV制服另类专区

↑ 點擊藍字關(guān)注極市平臺

作者丨Yipin Guo等

來源丨自動駕駛之心

編輯丨極市平臺

極市導(dǎo)讀

浙江大學(xué)最新的工作EfficientFuser，與SOTA的輕量級方法相比，EfficientFuser僅使用了37.6%的參數(shù)和8.7%的計算量，就能取得相同性能！ >>加入極市CV技術(shù)交流群，走在計算機視覺的最前沿

寫在前面&出發(fā)點

為了應(yīng)對傳感器融合和安全風(fēng)險預(yù)測的挑戰(zhàn)，當(dāng)前利用模仿學(xué)習(xí)的閉環(huán)自動駕駛神經(jīng)網(wǎng)絡(luò)通常需要大量的參數(shù)和計算資源來運行。鑒于車載計算機有限的計算能力，這里引入了一種緊湊而強大的解決方案，名為EfficientFuser。該方法采用EfficientViT進行視覺信息提取，并通過交叉注意力整合特征圖。隨后，它利用僅含解碼器的transformer將多個特征進行融合。為了進行預(yù)測，將可學(xué)習(xí)向量作為標(biāo)記embedding，以通過注意力機制探索任務(wù)與傳感器特征之間的關(guān)聯(lián)。在CARLA仿真平臺上進行評估，EfficientFuser表現(xiàn)出色，與最先進的輕量級方法相比，僅使用了37.6%的參數(shù)和8.7%的計算量，同時駕駛評分僅低0.4%，安全評分接近領(lǐng)先的增強安全性的方法，展示了其在自動駕駛系統(tǒng)中的有效性和實際應(yīng)用潛力。

當(dāng)前領(lǐng)域背景

深度神經(jīng)網(wǎng)絡(luò)的成功為基于數(shù)據(jù)驅(qū)動學(xué)習(xí)的自動駕駛（AD）方法鋪平了道路，這些方法利用大規(guī)模數(shù)據(jù)和計算。這使得端到端自動駕駛（E2E AD）系統(tǒng)成為現(xiàn)實。E2E AD被定義為完全可微的程序，直接將原始傳感器數(shù)據(jù)映射到計劃動作或低級控制命令，從而消除了對中間模塊的需求。這不僅簡化了開發(fā)，而且有可能提高性能。E2E AD主要在兩個主要方向上發(fā)展：強化學(xué)習(xí)（RL）和模仿學(xué)習(xí)（IL）。雖然RL能夠增強對數(shù)據(jù)分布變化的魯棒性，但最近駕駛場景生成的進步，加上BEV數(shù)據(jù)的日益可用性，使得IL變得越來越有吸引力。

早期的基于模仿學(xué)習(xí)（IL）的端到端自動駕駛（E2E AD）利用卷積神經(jīng)網(wǎng)絡(luò)（CNNs）提取圖像特征并直接模仿控制動作。然而，由于數(shù)據(jù)可用性和計算能力的限制，這些早期系統(tǒng)難以獲得良好的性能。隨后，大多數(shù)研究轉(zhuǎn)向了預(yù)測軌跡（即waypoints）。LBC利用策略提煉，其中使用鳥瞰圖（BEV）語義地圖訓(xùn)練的教師模型預(yù)測未來的waypoints。而學(xué)生模型僅使用圖像數(shù)據(jù)，從教師的預(yù)測中學(xué)習(xí)。TransFuser使用兩個CNNs分別提取圖像和激光雷達（LiDAR）信息，然后利用轉(zhuǎn)換器在每個下采樣步驟中融合這些信息。類似地，InterFuser使用CNNs提取傳感器特征，但利用編碼器-解碼器結(jié)構(gòu)額外融合了交通規(guī)則和車輛密度信息，旨在實現(xiàn)安全的駕駛策略。TCP結(jié)合了兩種預(yù)測目標(biāo)，將控制動作和一段時間內(nèi)的waypoints引入訓(xùn)練，并使用了一種混合軌跡跟蹤器和行為預(yù)測結(jié)果的控制方法。

盡管端到端方法具有潛力，但它們面臨著一個關(guān)鍵障礙：深度神經(jīng)網(wǎng)絡(luò)（DNN）龐大的計算需求與自動駕駛（AD）對實時、低延遲操作的需求之間存在不匹配。當(dāng)前的車載硬件難以處理DNN的復(fù)雜架構(gòu)和大量參數(shù)，從而限制了端到端系統(tǒng)在現(xiàn)實世界中的可行性。最近，越來越多的研究開始關(guān)注輕量級神經(jīng)網(wǎng)絡(luò)（NN）的設(shè)計。MobileNet利用深度可分離卷積來提高計算效率，同時不損失準(zhǔn)確性。MCUNet則進一步推動了小型化的極限，將網(wǎng)絡(luò)適配到僅有256KB內(nèi)存的嵌入式平臺上，極大地擴展了在資源受限環(huán)境中的部署可能性。盡管在輕量級NN設(shè)計方面取得了進展，但專門為端到端自動駕駛系統(tǒng)量身定制的此類網(wǎng)絡(luò)仍然稀缺。

為了克服端到端自動駕駛（E2E AD）的計算障礙，這里引入了EfficientFuser，這是一個強大且硬件友好的模型，它使用EfficientViT從多視角進行特征提取，并采用僅解碼器的轉(zhuǎn)換器結(jié)合任務(wù)引導(dǎo)嵌入進行預(yù)測。交叉注意力機制無縫地在不同尺度上整合了多視角信息。值得注意的是，EfficientFuser在保持強大功能和效率的同時，所需的參數(shù)和計算量更少，非常適合于實際應(yīng)用。主要貢獻如下：

EfficientFuser通過交叉注意力機制融合多個camera視角，提供了對環(huán)境更豐富的理解，同時計算負擔(dān)不大。
使用僅解碼器的轉(zhuǎn)換器進行預(yù)測過程，通過學(xué)習(xí)到的向量作為嵌入令牌，解碼器通過注意力機制找到任務(wù)與傳感器特征之間的聯(lián)系。
預(yù)測的waypoints和控制輸入被動態(tài)混合，提供了對不同駕駛場景的靈活適應(yīng)性和潛在的安全行為。

EfficientFuser結(jié)構(gòu)

如圖1所示，該架構(gòu)包含三個組件：(1) 交叉注意力特征融合。(2) 僅解碼器的transformer用于預(yù)測。(3) 動態(tài)混合行為預(yù)測結(jié)果和waypoints跟蹤器actions。

EfficientFuser的決策過程基于一個廣泛的輸入狀態(tài)x，它融合了多個數(shù)據(jù)源：傳感器信號i，通過車輛相機捕捉實時環(huán)境狀況；車輛速度v，表示當(dāng)前速度；以及高級導(dǎo)航信息g，包括來自全局規(guī)劃器的離散導(dǎo)航指令和目標(biāo)坐標(biāo)。為了調(diào)節(jié)車輛的速度和方向，系統(tǒng)生成油門∈[0, 1]、剎車∈[0, 1]和轉(zhuǎn)向∈[-1, 1]的輸出，分別控制加速、減速和轉(zhuǎn)向。

模仿學(xué)習(xí)（IL）的目標(biāo)是學(xué)習(xí)一個策略π，該策略能夠模仿專家π* 的行為。TCP認為軌跡和控制動作都包含重要的駕駛信息，因此兩者都應(yīng)作為模仿目標(biāo)。EfficientFuser遵循TCP的設(shè)置。不同之處在于，TCP首先預(yù)測軌跡，然后利用軌跡來指導(dǎo)控制動作的預(yù)測，而EfficientFuser則在解碼器中通過注意力機制完全交換這兩者之間的信息，并同時進行預(yù)測。模仿目標(biāo)可以表述為：

其中， $D ～ (x, [π^t, π^c])$ 是一個數(shù)據(jù)集，包含從專家那里收集的狀態(tài)-動作對。πc 表示控制分支的策略，πt 表示軌跡預(yù)測。L 是衡量專家動作與模型動作之間接近程度的損失。

Roach 被用作專家，它是一個相對簡單的模型，通過強化學(xué)習(xí)（RL）訓(xùn)練得到，并可以訪問特權(quán)信息。這些信息涵蓋了駕駛環(huán)境的各個方面，如道路、車道、路線、車輛、行人、交通信號燈和停車標(biāo)志，所有這些都被渲染成2D鳥瞰圖（BEV）圖像。與基于手工規(guī)則的專家相比，Roach可以為控制動作預(yù)測提供潛在特征作為中間監(jiān)督，使訓(xùn)練更加穩(wěn)定。

1）結(jié)構(gòu)設(shè)計

該結(jié)構(gòu)結(jié)合了視覺transformer（ViT）和大語言模型（LLM）中的僅解碼器transformer。

2）Image Backbone

EfficientViT 被用作視覺主干網(wǎng)絡(luò)。它首先將輸入圖像分割成更小的塊（例如，16x16 像素）。然后，將這些block展平并視為一系列標(biāo)記（token），類似于句子中的單詞。隨后，transformer的自注意力機制對這些圖像塊token進行操作，這使得 ViT 能夠?qū)W習(xí)圖像不同區(qū)域之間的復(fù)雜關(guān)系。雖然標(biāo)準(zhǔn)的 ViT 往往需要大量的計算資源，但采用級聯(lián)group注意力（Cascaded Group Attention）的 EfficientViT 能夠保持高效。這種方法允許更快的處理速度和更低的內(nèi)存使用量。與基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的融合方法 Transfuser 不同，后者在每個下采樣之后都依賴于多個transformer層進行融合，ViT 可以直接與小圖像block一起工作。對于 Transfuser 來說，在transformer階段之前，CNN 仍然需要進行特征池化以減少計算負擔(dān)，之后可能還需要進行插值以恢復(fù)分辨率。這種插值可能會損害原始特征圖的完整性。

為了保留原始圖像特征，采用了一種利用兩個圖像主干網(wǎng)絡(luò)之間交叉注意力的方法，這能夠?qū)崿F(xiàn)兩個視角之間的知識交換，引導(dǎo)它們關(guān)注特定區(qū)域的相關(guān)特征，如圖2所示。

3） Decoder Transformer

在序列處理領(lǐng)域，Transformer通常依賴于編碼器-解碼器結(jié)構(gòu)。編碼器首先處理輸入序列（圖像塊）并提取關(guān)鍵信息，最終生成一個context 向量，該向量捕獲了整個輸入的本質(zhì)。然后，解碼器接手，利用context 向量和來自其他信息（如速度、命令、占用圖等）的查詢來逐個生成輸出序列的元素。這就是InterFuser的工作原理。

受流行的大型語言模型（如GPT[18]）的啟發(fā)，我們采用僅解碼器的轉(zhuǎn)換器架構(gòu)來對所有輸入數(shù)據(jù)進行統(tǒng)一學(xué)習(xí)。研究表明，這種僅解碼器的框架不僅提供了增強的泛化能力，還具有更簡潔的結(jié)構(gòu)、更高的操作效率和更好的可擴展性。

與典型的基于transformer的架構(gòu)（該架構(gòu)交互標(biāo)記特征然后將其送入預(yù)測頭）不同，我們的方法引入了一個獨特的預(yù)測嵌入向量。該向量使用從高斯分布中抽取的隨機值進行初始化，并在整個訓(xùn)練過程中學(xué)習(xí)預(yù)測任務(wù)的特征表示。這種技術(shù)不僅提高了解碼器組件的可擴展性，還利用注意力機制在早期階段識別標(biāo)記之間的有利關(guān)系。示意圖如圖3所示。

4） Dynamic control

與TCP（傳輸控制協(xié)議）不同，TCP優(yōu)先考慮模型預(yù)測的控制量，而忽略了waypoints跟蹤器的控制量，而本文認為，底層控制器的偏好應(yīng)根據(jù)駕駛場景動態(tài)調(diào)整。

為了實現(xiàn)這一目標(biāo)，開發(fā)了一個損失估計器，它利用waypoints頭部中的GRU（門控循環(huán)單元）的隱藏特征和控制頭部的中間特征作為輸入，從而對兩者的訓(xùn)練損失進行建模。該過程的結(jié)果被用作預(yù)測置信度的度量，進而用于調(diào)整最終控制序列的偏好。更具體地說，可以表述如下：

其中, 和分別是預(yù)測的waypoints損失和控制損失, 它們需要盡可能接近真實的損失和。和是用于補償兩種損失數(shù)值范圍差異的系數(shù), 這些系數(shù)是根據(jù)經(jīng)驗確定的。

實驗結(jié)果

評估指標(biāo)。使用四個指標(biāo)來評估方法的有效性：駕駛分數(shù)（DS）、路線完成率（RC）、參數(shù)數(shù)量（Param）和浮點運算次數(shù)（Flops）。其中，DS和RC用于表示駕駛效果，Param和Flops用于表示神經(jīng)網(wǎng)絡(luò)的效率。

駕駛分數(shù)（DS）是Carla排行榜的主要指標(biāo)，它是路線完成率和違規(guī)罰分的乘積。RC表示智能體完成的路線距離百分比。Param指的是需要保存的參數(shù)總數(shù)，它代表神經(jīng)網(wǎng)絡(luò)的大小，并通常決定了運行神經(jīng)網(wǎng)絡(luò)所需的存儲空間量。Flops是衡量通過網(wǎng)絡(luò)執(zhí)行一次前向傳播（推理）所需的計算成本的指標(biāo)。

數(shù)據(jù)集。使用CARLA模擬器進行訓(xùn)練和測試，具體是CARLA 0.9.10版本。在7個城鎮(zhèn)上進行訓(xùn)練，在Town05上進行評估。選擇Town05進行評估是因為與其他CARLA城鎮(zhèn)相比，其可駕駛區(qū)域具有較大的多樣性，例如多車道和單車道道路、高速公路和出口、橋梁和地道。為了進一步提高駕駛安全性的評估，將涉及行人突然出現(xiàn)和車輛異常行為的場景集成到模擬環(huán)境中?？紤]兩種評估設(shè)置：(1) Town05 Short：32條100-500米的短路線，每條路線包含3個路口；(2) Town05 Long：10條1000-2000米的長路線，每條路線包含10個路口。天氣條件為晴朗中午。

訓(xùn)練。使用EfficientViT-m1和m0作為視覺主干，并加載ImageNet預(yù)訓(xùn)練權(quán)重。其他部分使用高斯隨機數(shù)進行初始化。EfficientFuser以0.0005的學(xué)習(xí)率訓(xùn)練60個周期，然后以0.0001的學(xué)習(xí)率再訓(xùn)練60個周期。bs大小為256。使用Adam優(yōu)化器，權(quán)重衰減為1e-7。每30個周期將學(xué)習(xí)率減半。設(shè)置了四個損失部分，即速度損失Ls、特征損失Lf、航點損失Lw和控制損失Lc。Lf和Ls是中間監(jiān)督，用于指導(dǎo)訓(xùn)練，這與TCP類似。

結(jié)果對比

表1展示了在公開的Carla排行榜框架內(nèi)，EfficientFuser與其他顯著研究的比較分析。EfficientFuser的性能以兩個不同版本進行闡述。初始版本結(jié)合了前視圖和焦點視圖（即增強的正面視角）的輸入，圖像分辨率為256x256?！案鼘捯曇啊钡３窒嗤南鄼C方向，但將圖像寬度擴展到768像素，從而捕捉更廣泛的信息。

EfficientFuser顯著減小了基于模仿學(xué)習(xí)的閉環(huán)自動駕駛模型的大小，達到了前所未有的水平。與最先進的輕量級方法TCP相比，EfficientFuser的模型大小僅為TCP的37.6%，計算需求僅為TCP的8.5%。盡管EfficientFuser的神經(jīng)網(wǎng)絡(luò)（NN）大小顯著減小，但在Town05 Short場景中，其駕駛分數(shù)（DS）僅下降了0.4%。與在相似參數(shù)和計算負載下的CIL相比，EfficientFuser表現(xiàn)出色，在DS上獲得了顯著的73分優(yōu)勢。

作為一種前沿的易于實現(xiàn)的閉環(huán)自動駕駛解決方案，InterFuser在路線完成率（RC）上與EfficientFuser相似，但駕駛分數(shù)（DS）提高了6.3分。然而，這一提升是以參數(shù)數(shù)量增加8.4倍和計算需求增加31.6倍為代價的?；跈z測結(jié)果，這些模型通常采取謹慎的方法，建議在車輛長時間靜止且路徑上沒有任何障礙物時緩慢行駛。憑借其增強的安全駕駛策略，InterFuser甚至?xí)R別到遠處下一個無法到達的路口紅燈并停下來——這種行為不符合典型的人類駕駛模式，而EfficientFuser則不會出現(xiàn)這種情況。

為了突出EfficientFuser的安全性能，我們在Town05 Short上報告了各種方法因違規(guī)而受到的處罰。EfficientFuser在安全性方面顯著超過了TCP和Transfuser設(shè)定的基準(zhǔn)，并且僅略遜于以安全為核心的InterFuser。

EfficientFuser采用了一種新穎的方法，通過引入一個可學(xué)習(xí)的嵌入向量來進行預(yù)測。這種方法與傳統(tǒng)做法不同，后者通常直接將傳感器標(biāo)記信息輸入到預(yù)測頭中。通過采用這種設(shè)計，EfficientFuser開始在早期階段探索預(yù)測目標(biāo)與輸入數(shù)據(jù)之間的相關(guān)性，從而生成特定于任務(wù)的表示。為了說明這種方法的影響，我們可視化了兩個代表性的注意力圖。紅線將來自不同信息源的標(biāo)記分隔開。以橫坐標(biāo)為例，從左到右分別是預(yù)測標(biāo)記、測量標(biāo)記、側(cè)視圖標(biāo)記和主視圖標(biāo)記。

消融實驗

為了全面調(diào)查系統(tǒng)架構(gòu)并評估提出方法的有效性，進行了一系列消融研究。首先，評估了使用不同大小的圖像主干的影響以及跨注意力融合器帶來的性能提升。隨后，我們探索了改變解碼器層深度和實現(xiàn)可學(xué)習(xí)向量嵌入的影響。最后，動態(tài)控制調(diào)整與TCP中采用的靜態(tài)分配方法進行了比較。這些實驗的結(jié)果均在Town05 Short上收集，為分析每個組件對整體性能的貢獻提供了全面的視角。

跨注意力融合是一種高效的方法，在EfficientFuser中僅增加了5.7%的額外參數(shù)和7.2%的計算量。盡管其計算需求很小，但跨注意力在EfficientFuser中發(fā)揮著關(guān)鍵作用。缺少這種多級圖像信息交互會顯著影響系統(tǒng)的有效性，導(dǎo)致駕駛分數(shù)大幅降低14.9分。這凸顯了跨注意力在促進有效特征融合和提高模型做出明智決策能力方面的重要性。

直觀上，人們可能會認為更大的圖像主干由于其增強的特征提取能力會產(chǎn)生更好的結(jié)果。然而，如表2所示，主干大小的增加實際上降低了模型的性能。這種反直覺的結(jié)果可能歸因于訓(xùn)練任務(wù)的復(fù)雜性，這阻礙了更大主干充分訓(xùn)練潛力的發(fā)揮。

在評估解碼器層時，建立了兩組比較分析。第一組研究了解碼器層深度變化的影響。隨后考察了我們提出的將可學(xué)習(xí)向量作為預(yù)測標(biāo)記的方法。為了比較，進行了另一項實驗，其中沒有使用可學(xué)習(xí)向量并將其集成到標(biāo)記維度中，而是對傳感器特征進行了平均處理，并將其發(fā)送到預(yù)測頭以觀察對預(yù)測的影響。這些調(diào)查的結(jié)果列于表3中。

盡管引入了一些輕微的計算開銷，但EfficientFuser所使用的可學(xué)習(xí)向量方法顯著提高了駕駛性能。關(guān)于解碼器層的深度，很明顯增加深度并不一定會提高性能。雖然車輛的響應(yīng)能力（RC）可能會增加，但駕駛得分（DS）卻大幅下降，這表明車輛開始忽視與安全相關(guān)的信息。這一現(xiàn)象在視覺注意力圖中也可以觀察到；從第七層開始，焦點從預(yù)測標(biāo)記轉(zhuǎn)移到加強某些測量標(biāo)記信息的方向上。

EfficientFuser采用了TCP使用的混合控制，并結(jié)合了動態(tài)分配策略。為了驗證動態(tài)調(diào)整方法的有效性，我們進行了關(guān)于TCP設(shè)置和動態(tài)設(shè)置的實驗。表4中的結(jié)果證實了動態(tài)分配組件的有效性，提高了駕駛得分（DS）和響應(yīng)能力（RC）。