U-LanD:基于不確定性的視頻地標檢測
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達

本文提出了一個聯(lián)合檢測視頻關(guān)鍵幀和地標的框架U-LanD。我們解決了一個特別具有挑戰(zhàn)性的問題,訓練標簽是有噪聲和高度稀疏的。U-LanD建立在一個關(guān)鍵的觀察基礎(chǔ)上:一個只在關(guān)鍵視頻幀上訓練的深度貝葉斯地標檢測器,與視頻中的其他幀相比,這些幀的預測不確定性顯著降低。我們使用這個觀察作為一個無監(jiān)督信號自動識別關(guān)鍵幀,我們檢測地標。作為我們框架的測試平臺,我們使用心臟的超聲成像視頻,其中稀疏和嘈雜的臨床標簽只能用于每個視頻的單個幀。使用4493例患者的數(shù)據(jù),我們證明U-LanD在R方評分上的絕對優(yōu)勢顯著地超過了最先進的非貝葉斯模型,達到42%,幾乎沒有模型大小的負擔。我們的方法是通用的,可以潛在地應用于其他具有噪聲和稀疏訓練標簽的具有挑戰(zhàn)性的數(shù)據(jù)。
我們證明了U-LanD在具有挑戰(zhàn)性數(shù)據(jù)集的稀疏注釋數(shù)據(jù)上的有效性,即超聲心動圖(回聲,心臟超聲)。回聲視頻,又名回聲電影系列,有著臭名昭著的噪聲性質(zhì)(樣本幀可以在圖1中看到),這增加了自動分析的復雜性。我們解決了左室流出道(LVOT)里程碑檢測[23]的任務,這是一個遭受標簽稀疏性極端限制的問題;在LVOT訓練視頻中,整個幀跨度中只有一幀具有g(shù)round-truth landmark標簽。在每個訓練視頻中,臨床專家都標注了兩個點的位置(用于測量左心室直徑的點的坐標),只標注了一幀(心臟收縮期中期周圍的一幀),在這一幀中,目標對象,即主動脈,具有最高的可見性。在我們的實驗中,我們收集了4493名患者的大規(guī)?;芈晹?shù)據(jù)集,證明了ULanD可以顯著提高最先進的非貝葉斯對應對象的結(jié)果。同時,U-LanD是全自動的,它可以超過涉及專家監(jiān)督的半自動關(guān)鍵幀地標檢測的結(jié)果。

提出的U-LanD框架的框圖,包括訓練、統(tǒng)計校準和測試階段。ULanD自動預測視頻關(guān)鍵幀上的地標,而訓練視頻只標注在一幀上。我們建議利用貝葉斯地標檢測器(BU-Net)的預測不確定性,通過時間來識別關(guān)鍵幀和非關(guān)鍵幀。

測試視頻的樣本幀,以及它們對應的任意和認知不確定性映射。a)采樣非關(guān)鍵幀,不確定度高(無地標預測)自動丟棄。b)將預測地標疊加在關(guān)鍵幀上的關(guān)鍵幀樣本。心臟超聲視頻的目標是左血流;地標是用來測量LVOT長度(兩點之間的線)。圖(b)顯示了預測的地標(綠色)、地面真實地標(橙色)和重疊部分(黃色)。這種情況下的預測誤差(長度的平均絕對差)為0.18 mm。此外,樣本視頻結(jié)果在補充材料中給出。
在本文中,我們提出了U-LanD,一個貝葉斯框架,用于在具有極稀疏和噪聲標簽的視頻中聯(lián)合關(guān)鍵幀和地標檢測。U-LanD利用時間的不確定性變化作為無監(jiān)督信號來檢測視頻關(guān)鍵幀上的地標。我們在一個具有挑戰(zhàn)性的心臟超聲系列數(shù)據(jù)集上演示了U-LanD,其中每個訓練視頻中只有一幀被注釋,然而這些注釋是嘈雜的臨床標簽。在實驗中,我們從4493例患者中采集了大規(guī)模的echo系列視頻數(shù)據(jù)集,顯示了U-LanD的有效性;以42%(+175%)的顯著邊際提高了最先進的非貝葉斯對應的R方分數(shù),沒有額外的標簽成本,幾乎沒有內(nèi)存開銷。U-LanD(全自動)在R2評分上也比半自動視頻里程碑檢測高出25%(+61%)。U-LanD即使簡單選擇骨干檢測器9和OOD剔除方法,也能取得較好的效果。未來的工作可能包括研究多目標檢測和跟蹤中的時間不確定性。
論文鏈接:https://arxiv.org/pdf/2102.01586.pdf
每日堅持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉(zhuǎn)發(fā)給周圍的同學。
- END -
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

