自動路損檢測器
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達

城市道路鳥瞰圖
1 介紹
損壞的道路對市民的出行有一定的影響。對市政府來說,檢測和確定要修復(fù)的道路是一項巨大挑戰(zhàn)。在美國,大多數(shù)州僅僅采用半自動方法進行道路損壞的檢測,而在世界其它地區(qū)這個過程則完全是人工檢測。由于必須保證路況數(shù)據(jù)是最新的,所以必須以較高的頻率檢測道路,這使得收集數(shù)據(jù)的過程既昂貴又費時。這就引出了一個問題:計算機視覺可以提供幫助嗎?
通過Lab1886一起提供數(shù)據(jù),讓我們一起探索以下問題的答案:
(1)是否可以利用汽車儀表板上智能手機拍攝的原始視頻片段來自動檢測道路是否損壞以及損壞程度?
(2)需要克服哪些技術(shù)挑戰(zhàn)?
本文將要介紹如何解決自動路損檢測任務(wù),重點介紹遇到的一些問題。
2 目前的技術(shù)水平

圖1:現(xiàn)有論文中關(guān)于道路損壞檢測的示例圖像
在深入研究之前,我們對當(dāng)前的技術(shù)水平進行了調(diào)查,找出其他人已經(jīng)完成的工作。從文獻綜述中,我們發(fā)現(xiàn)路損檢測的方法大致可以分為以下幾類
? ??3D分析:使用立體圖像或LIDAR點云來檢測人行道中的異常情況。??
? ??基于振動的分析:充分利用車載加速度計或陀螺儀。
? ??基于視覺的分析:從傳統(tǒng)技術(shù)(如邊緣檢測和光譜分割)到通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行的表征學(xué)習(xí)和分割。
方法:由于我們的主要任務(wù)本質(zhì)上是視覺,并且我們無法訪問LIDAR或振動數(shù)據(jù),因此我們選擇專注于基于視覺的算法,特別是有監(jiān)督的學(xué)習(xí)方法。
數(shù)據(jù):之前的相關(guān)研究主要依賴于特寫圖像或與路面正交的圖像,但這些圖像與安裝在儀表板上的攝像機傳輸?shù)膱D像明顯不同,因此不能使用這些數(shù)據(jù)訓(xùn)練或校準(zhǔn)。
3 我們的數(shù)據(jù)
數(shù)據(jù)集:安裝在汽車上的照相機收集的數(shù)據(jù)集。整個數(shù)據(jù)集包含約27000張德國道路的圖像,這些圖像是在晴天和干燥條件下進行40次不同行駛拍攝到的。圖像中道路類型變化很大:有些是帶有建筑物環(huán)境的多車道城市道路,有些是沒有道路標(biāo)記或建筑物的鄉(xiāng)村道路,路面也各不相同(混凝土、瀝青、鵝卵石)。圖像以大約每秒1張的方式拍攝。

圖2:來自Lab1886提供的數(shù)據(jù)集中的示例圖像。
4 數(shù)據(jù)標(biāo)注的困難
因為數(shù)據(jù)集缺少標(biāo)簽,因此我們需要一種方法解析每張圖像,針對每種類型的道路損壞對相關(guān)像素進行細分,并為像素標(biāo)注相應(yīng)損壞嚴(yán)重性類別的標(biāo)簽。手動標(biāo)注是一項艱巨的任務(wù),因此我們使用幾種簡化標(biāo)注的方式:
(1)縮小工作范圍(僅考慮油漆損壞):由于道路損壞的形式多種多樣(例如鱷魚皮裂縫、縱向裂縫、坑洼、斑塊、油漆),我們選擇縮小工作范圍,僅考慮油漆損壞。這不僅可以使數(shù)據(jù)標(biāo)注更容易,還可以為以后識別其他類型道路損壞提供參考。
(2)嘗試使用預(yù)先訓(xùn)練的分類模型篩選出沒有油漆損壞的圖像:我們從Maeda那里得到兩個經(jīng)過預(yù)先訓(xùn)練的分類模型,這些分類器在10000幅以上的圖像上進行了訓(xùn)練,使用邊界框來識別8種不同類型的道路損壞(包括磨損的油漆線)。這些模型對我們數(shù)據(jù)集的泛化效果很差。通過如下‘小提琴圖’可以看到無論是否存在油漆損壞,模型預(yù)測的分布幾乎相同。

圖3:Maeda等人模型的小提琴圖,?MobileNet-SSD和Inception-SSD。這些圖表明,任何參數(shù)調(diào)整都不可以幫助模型區(qū)分是否存在油漆損壞。
(3)嘗試使用Mechanical Turk(MTurk)眾包注釋,這是Amazon提供的一項服務(wù),參與者可以執(zhí)行簡單的任務(wù)來換取金錢。我們的任務(wù):通過從下拉菜單中選擇相應(yīng)的嚴(yán)重性標(biāo)簽來標(biāo)注圖像中的油漆損壞。我們選擇以下簡單的嚴(yán)重等級:
?1-輕度損壞
?2-中等/中度損害
?3-嚴(yán)重損壞
圖4為 MTurk標(biāo)注界面的示例。我們用200張圖像進行了一些試驗性實驗,每次修改指令用來糾正先前實驗中觀察到的不良結(jié)果,我們至少有三名工作人員在每個圖像上標(biāo)注。

圖4:MTurk批注界面的示例。
即使進行三次實驗迭代,工作人員仍在注釋內(nèi)容和注釋方法上存在分歧。我們使用交并比(IoU)量化了同一張圖片中不同標(biāo)注者之間的協(xié)議分?jǐn)?shù),根據(jù)協(xié)議分布,大多數(shù)標(biāo)簽的注釋完全沒有重疊(如圖5),表明對于非專家而言,標(biāo)注涂料損壞是一項困難任務(wù)。

圖5:通過MTurk標(biāo)注的圖像的標(biāo)注協(xié)議得分的分布。這顯示了標(biāo)記任務(wù)的高度主觀性以及為什么眾包困難。
結(jié)果:最終選擇自己標(biāo)記數(shù)據(jù)。總共對1357張圖像進行了標(biāo)注,其中每個嚴(yán)重程度至少包含300個實例。
5 模型
從根本上講,我們的任務(wù)解決兩個問題:
?損壞在哪里?
?損壞有多糟?
解決問題的方法:
方法一、使用兩個不同的模型(分割和分類)分別解決每個問題(多階段)
1.分割模型:識別輸入圖像中存在油漆損壞的區(qū)域。嘗試了一些傳統(tǒng)的計算機視覺技術(shù)(閾值化、分水嶺分割和簡單線性交互式聚類(SLIC)),來了解它們是否可以充分‘掩蓋’油漆,所有這些傳統(tǒng)方法都需要手動調(diào)整大量的超參數(shù),并且無法在多個圖像上進行概括。(圖6傳統(tǒng)分割算法的結(jié)果)最終,我們使用流行的卷積編碼-解碼器網(wǎng)絡(luò)U-Net來執(zhí)行單通道語義分割。模型的輸出是每個像素是否代表油漆損壞的預(yù)測概率。

圖6:在我們數(shù)據(jù)集中的單個圖像上運行三種傳統(tǒng)圖像分割算法的結(jié)果。
2.分類模型:從理論上講,對預(yù)測進行閾值處理來生成可從輸入圖像中找出受損區(qū)域的掩碼(圖像分割),然后將其輸入分類器以預(yù)測損壞嚴(yán)重性。但在實踐中,使用真實(像素級)標(biāo)注的圖片作為分類模型的輸入,從而能夠找到分割模型表現(xiàn)不佳的可能性,這樣我們能夠分別評估分割模型和分類模型。我們使用的分類器是基于ResNet18架構(gòu)的CNN。

圖7:左:原始圖像。中/右:傳遞到我們分類器模型的相應(yīng)掩碼輸入。
3.評估:在占總圖像15%的測試集上評估每個模型。單類語義分割模型,(示例輸出如圖7),與傳統(tǒng)的計算機視覺方法相比,該模型學(xué)會了分割畫線(圖8)。然而像素級精度和召回率曲線(圖9)表明,該模型傾向于高估涂料損壞的存在。

圖8:左:原始圖像。中:地面真相面具。右:單通道細分模型的閾值輸出。

圖9:單通道分割模型的像素級精度和召回率與概率閾值的關(guān)系。隨著閾值的提高,該模型預(yù)測的損壞將減少。
損壞程度分類模型,能夠在一定程度上區(qū)分高度損害與低度損害,但很難從中等/中度損害中區(qū)分低度損害(見圖10)。這是表明標(biāo)記的低度和中度損壞實例彼此太相似,分類模型對兩者都做出了相似的預(yù)測。

圖10:嚴(yán)重性分類網(wǎng)絡(luò)的混淆矩陣。每個類別的預(yù)測準(zhǔn)確度如下:1–74.5%,2-–5.9%,3–54.2%,總體:45%。
方法二、多類別分割模型
調(diào)整U-Net以執(zhí)行多類別分割,除了包含所有像素是否損壞的掩碼(mask),還為損壞嚴(yán)重性類別生成了一個掩碼(mask)。

圖11:多類別分割模型的示例輸出。從左到右:嚴(yán)重性級別1、2和3的輸入,目標(biāo)和像素級別預(yù)測
多類分割模型的性能與多階段方法中的分類器非常相似,因為它能夠區(qū)分低度和高度油漆損壞,但對低度和中度損壞做出了類似預(yù)測。這在圖12中得到了最充分的傳達。

圖12:多類細分模型的并集在交集上的變化作為概率閾值的函數(shù)。
多類分割模型的性能對預(yù)測閾值非常敏感,即在將像素指定為“損壞”之前,該模型必須逐像素預(yù)測確定性。考慮到模型在中、低損壞等級之間的不確定性,它傾向于為這兩者分配非常低的概率。閾值超過20%時,我們的多類別分割模型只能預(yù)測出嚴(yán)重程度較高的損壞;較低的閾值導(dǎo)致對損壞區(qū)域的過度預(yù)測。這樣區(qū)分嚴(yán)重性的困難與識別損壞位置的困難混為一談。
從建模的角度來看,采用多階段方法可能更有利于闡明任務(wù)在哪些方面最具挑戰(zhàn)性。
6 重點
6.1 概括
理想情況:模型對于從不同角度、不同光照條件或天氣的新區(qū)域獲取的數(shù)據(jù)能保持較高的準(zhǔn)確性。
數(shù)據(jù):道路損壞的數(shù)據(jù)不足,并且 Maeda等人的數(shù)據(jù)無法完全歸納到我們的數(shù)據(jù)集中(盡管日本的道路和德國的道路僅存在細微的系統(tǒng)差異—德國道路通常較寬,顏色較淺),任何現(xiàn)有模型都需要進行大量的重新訓(xùn)練和調(diào)整才能處理新數(shù)據(jù),但是數(shù)據(jù)收集和注釋艱難,如果沒有足夠的資源來獲取數(shù)據(jù)或雇用經(jīng)過訓(xùn)練的專業(yè)知識人員,訓(xùn)練可推廣模型對于本地市政來說是一項巨大挑戰(zhàn)。
神經(jīng)網(wǎng)絡(luò)表征學(xué)習(xí):使用復(fù)雜的神經(jīng)網(wǎng)絡(luò)進行表征學(xué)習(xí)是必要的,因為簡單的計算機視覺方法無法解決問題。
6.2 噪聲注釋
我們的標(biāo)注過程看似簡單:識別損壞的油漆并將其嚴(yán)重性得分指定為1、2或3。但是查看MTurk結(jié)果,就很清楚這并不是那么簡單。即使為MTurk提供了非常詳細的說明并提供了充分的示例,工人之間也幾乎沒有一致意見。出現(xiàn)了一些意外的問題:? ?
? ?1.是否突出顯示整個油漆線,還是僅突出虛線部分?
? ?2.這里應(yīng)該是油漆嗎?
? ?3.應(yīng)該標(biāo)記多遠?
? ?4.應(yīng)該注釋損壞周圍多少“緩沖”區(qū)域為建模提供背景?
即使在討論了這些要點并自己標(biāo)記了數(shù)據(jù)之后,依然有幾個相互矛盾的例子,這些例子構(gòu)成了中、低程度損害的實例。因此我們建議研究員將嚴(yán)重度等級分解為能夠滿足他們要求的最少幾類,我們懷疑這是我們的模型學(xué)會區(qū)分極端損壞而無法區(qū)分中、低損壞的關(guān)鍵原因。為減輕此錯誤需要更一致的標(biāo)簽、更多的數(shù)據(jù)或更少的嚴(yán)重性等級。
6.3 模型評估
分割模型的定量評估非常細致。首先,與真實掩碼的比較都會受到兩個噪聲源的影響:
? ?1.注釋不一致引起的意外噪聲(對我們來說是一個實際問題)。
? ?2.在注釋期間,突出顯示的場景上下文數(shù)量。
評估指標(biāo):
? ?1.IoU評估指標(biāo):假設(shè)我們有一個僅分割油漆線的理想模型,注釋在突出顯示場景上下文中越寬松,則IoU得分就越低。
? ?2.以像素或圖像為單位計算精度和召回率:對每個像素進行預(yù)測或?qū)γ總€圖像進行預(yù)測,為了將像素級預(yù)測映射到圖像,將圖像中任何正像素預(yù)測的存在視為該圖像的正預(yù)測。精度和召回率的任何計算都必須通過最終用戶希望模型的保守程度來限定。
請注意,我們用來評估模型的指標(biāo)并不構(gòu)成詳盡清單。我們的建議是使用一套以像素和圖像為單位的指標(biāo),以了解模型在各種特殊水平下的表現(xiàn)。
7 結(jié)束語
深度學(xué)習(xí)模型在精選數(shù)據(jù)集上表現(xiàn)非常出色,但在非結(jié)構(gòu)化數(shù)據(jù)上仍有很大改進空間,應(yīng)用計算機視覺模型執(zhí)行自動道路損壞檢測時,必須考慮的一些重要因素,包括:
? ??如何正確地對不同類型的損害進行分類。
? ??如何確保注釋一致。
? ??具有數(shù)百萬個參數(shù)的深度學(xué)習(xí)模型需要多少個注釋才能有效學(xué)習(xí):損壞存在的地方,以及損壞的程度。
? ??如何有效評估分割模型,并考慮注釋的制作方式以及最終用戶的身份。
我們的貢獻是概述了這些挑戰(zhàn),并證明即使在數(shù)據(jù)有限和標(biāo)簽嘈雜的情況下,我們的模型也能夠?qū)W會分割油漆線,分類嚴(yán)重的極端示例。模型的瓶頸在于數(shù)據(jù)。
參考資料
[1] R. Fan,M. Liu,基于無監(jiān)督視差圖分割的道路損壞檢測https://arxiv.org/pdf/1910.04988.pdf (2019年),IEEE Transactions on Intelligent Transportation Systems
[2] S. Chen等人,“?3D LiDAR掃描進行橋梁損傷評估” https://ascelibrary.org/doi/10.1061/9780784412640.052 (2012年),《法證工程》 2012年:通往更安全明天的門戶
[3] S. Sattar等人,《使用智能手機傳感器進行路面監(jiān)測:回顧》https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6263868/ (2018年),傳感器(瑞士巴塞爾)
[4] E. Buza等人,“?具有圖像處理和光譜聚類的坑洞檢測”
https://pdfs.semanticscholar.org/78d5/c9c0c9bcdb939e028bc4d6f808300253dca1.pdf (2013年),第二屆國際信息技術(shù)和計算機網(wǎng)絡(luò)會議論文集
[5] J. Singh,S。Shekhar,《使用Mask R-CNN的智能手機捕獲圖像中的道路損壞檢測和分類》https://arxiv.org/pdf/1811.04535.pdf%60 (2018),arXiv預(yù)印本arXiv:1811.04535
[6] H. Maeda等人,《使用深度神經(jīng)網(wǎng)絡(luò)的道路損壞檢測與通過智能手機捕獲的圖像》https://arxiv.org/pdf/1801.09454.pdf (2018),計算機。輔助文明?基礎(chǔ)設(shè)施。。
[7] O. Ronneberger等人,U-net:用于生物醫(yī)學(xué)圖像分割的卷積網(wǎng)絡(luò)https://arxiv.org/pdf/1505.04597.pdf(2015年),醫(yī)學(xué)圖像計算和計算機輔助干預(yù)國際會議
?End?
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~
