<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          計(jì)算機(jī)視覺(jué)中低延遲檢測(cè)的相關(guān)理論和應(yīng)用

          共 8159字,需瀏覽 17分鐘

           ·

          2020-09-19 22:17

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          作者丨吃飯機(jī)@知乎
          來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/200924181;
          https://zhuanlan.zhihu.com/p/212842916
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

          ?

          本文作者介紹了自己關(guān)于視頻中物體低延遲檢測(cè)的工作,內(nèi)容包括工作背景、實(shí)現(xiàn)思路、遭遇的問(wèn)題和相關(guān)思考等,值得參考。


          計(jì)算機(jī)視覺(jué)中低延遲檢測(cè)的相關(guān)理論和應(yīng)用(上)


          寫(xiě)在前邊

          之前在專(zhuān)欄的第一篇文章中介紹了一下關(guān)于層模型(layered model)的工作,并給自己挖了幾個(gè)坑。今天讓我來(lái)填其中一個(gè)坑:視頻中的物體低延遲檢測(cè)。由于這一系列工作目前貢獻(xiàn)了一篇cvpr17和一篇iccv19共兩篇論文,我將分上下兩篇文章分別介紹,希望可以把工作的背景、思路、坑、相關(guān)思考和一些不在論文發(fā)表內(nèi)容中的故事說(shuō)明白。還是和上一篇一樣,希望寫(xiě)出來(lái)的的不是機(jī)械的公式或者吹得天花亂墜神乎其神的PR,而是一些原理性的東西以及背后思考的過(guò)程。
          低延遲檢測(cè)是視覺(jué)任務(wù)工程化落地不可能繞過(guò)的一個(gè)問(wèn)題??傮w來(lái)說(shuō),對(duì)于任何檢測(cè)(不只是視覺(jué))任務(wù)來(lái)說(shuō),延遲和誤報(bào)率大概有這樣一個(gè)關(guān)系:
          這個(gè)關(guān)系不難理解,不只是視覺(jué)問(wèn)題,世間萬(wàn)物,更長(zhǎng)的決策過(guò)程(delay)往往能帶來(lái)更高的準(zhǔn)確度,但是這個(gè)更長(zhǎng)的決策過(guò)程也會(huì)帶來(lái)更大的延遲。兩者之間的平衡,對(duì)很多需要在線決策(online process)的系統(tǒng)來(lái)說(shuō)非常重要。例如生物視覺(jué),假定一個(gè)動(dòng)物檢測(cè)到掠食者就需要逃跑,如果追求低誤報(bào)率,就要承擔(dān)高延遲帶來(lái)的風(fēng)險(xiǎn),有可能檢測(cè)到掠食者時(shí)為時(shí)已晚無(wú)法逃脫;如果追求低延遲,雖然相對(duì)安全,但是誤報(bào)率高,有一點(diǎn)風(fēng)吹草動(dòng)就猶如驚弓之鳥(niǎo)。
          Motivation: Biological Vision
          這樣的決策過(guò)程對(duì)自動(dòng)駕駛的重要性不言而喻。在檢測(cè)障礙物的過(guò)程中,既不可能等到撞到再剎車(chē),也不可能隨便看到什么像障礙物的東西就剎車(chē)。比如下邊這個(gè)uber自動(dòng)駕駛出的致命事故,在車(chē)輛撞到行人的那一刻仍然沒(méi)有準(zhǔn)確檢測(cè)道障礙物,這樣的延遲顯然不能接受。
          對(duì)于一般的視覺(jué)任務(wù)來(lái)說(shuō),更高的準(zhǔn)確度往往可以通過(guò)加大模型來(lái)達(dá)到;但是對(duì)于實(shí)際應(yīng)用來(lái)說(shuō),提高模型準(zhǔn)確率難上加難(不少任務(wù)漲點(diǎn)1%已經(jīng)是突破了),但是多從相機(jī)抓取一幀幾乎沒(méi)有任何成本。把兩幀的結(jié)果合并到一起,總體準(zhǔn)確率顯然比只用一幀要高。所以,一個(gè)簡(jiǎn)單的思路在于,當(dāng)出現(xiàn)了一個(gè)可能的目標(biāo),系統(tǒng)需要在“宣布檢測(cè)到目標(biāo)”和“多等一幀看看”之間做出決斷。這篇專(zhuān)欄介紹的工作,就是要解決這樣一個(gè)決策過(guò)程。

          背景理論

          幸運(yùn)的是,現(xiàn)有的信號(hào)處理理論中已經(jīng)對(duì)這個(gè)問(wèn)題有了很好的建模(參見(jiàn)Quickest Change Detection Theory [1])。在這里我不放大段數(shù)學(xué),只概括一下大概思路和結(jié)論。沒(méi)有興趣的話,可以直接跳到下一部分看算法結(jié)果。
          讓我們假設(shè)一個(gè)系統(tǒng)的初始狀態(tài)為 ,在某一個(gè)未知的時(shí)間點(diǎn)轉(zhuǎn)換成 。例如自動(dòng)駕駛,沒(méi)有障礙物的情況為,有障礙物的情況為 。而在某個(gè)未知的時(shí)間 (障礙物突然出現(xiàn)的時(shí)刻),系統(tǒng)會(huì)從 轉(zhuǎn)換成。這時(shí)檢測(cè)系統(tǒng)的目標(biāo),是探測(cè)這種狀態(tài)的轉(zhuǎn)換。假設(shè)輸入的信號(hào)是 (對(duì)視覺(jué)問(wèn)題來(lái)說(shuō),每一幀就是信號(hào)),這樣一個(gè)檢測(cè)問(wèn)題就可以由這樣如下假設(shè)檢驗(yàn)來(lái)描述:
          其中 為當(dāng)前時(shí)刻,分子代表轉(zhuǎn)換已經(jīng)發(fā)生的概率,分母代表轉(zhuǎn)換還未發(fā)生的概率。如果在同狀態(tài)下的 是獨(dú)立同分布的,這樣一個(gè)似然比檢驗(yàn)(likelihood ratio test)就有如下形式:
          這里的數(shù)學(xué)符號(hào)都很簡(jiǎn)單,不超出本科數(shù)理統(tǒng)計(jì)的內(nèi)容,就不多做解釋了。在這種概率建模下,似然比可以作為一個(gè)用于決策轉(zhuǎn)換是否發(fā)生的統(tǒng)計(jì)量。當(dāng)似然比大于某個(gè)閾值,即可宣稱系統(tǒng)發(fā)生了變化(declare a detection),反之則等待新的信號(hào)輸入。實(shí)際操作中,我們對(duì)右邊的表達(dá)取log,連乘變成連加,更加方便。總體來(lái)說(shuō),決策過(guò)程如下邊這個(gè)框圖
          這套理論有兩個(gè)特別好的點(diǎn)。首先,這一個(gè)似然比檢驗(yàn)可以獲得理論上漸進(jìn)最優(yōu)的解。也就是說(shuō),在同一個(gè)誤報(bào)率下,這個(gè)檢測(cè)方法可以獲得理論上最低的延遲;而在同樣的延遲下,這個(gè)檢測(cè)方法可以獲得理論上最低的誤報(bào)率。這就給把這套檢測(cè)方法用在視覺(jué)系統(tǒng)中提供了很好的理論保障。其次,這套理論提供了一個(gè)遞歸解。在實(shí)際應(yīng)用中,這個(gè)遞歸解可以讓上邊公式關(guān)于 取max的操作無(wú)需遍歷所有 ,具體的數(shù)學(xué)表達(dá)比較復(fù)雜,建議有興趣的朋友直接參考[1]。

          移動(dòng)物體檢測(cè)

          這一部分介紹一下17年CVPR的論文《Minimum Delay Moving Object Detection》[2]。在這片論文中,我們把這套低延遲檢測(cè)的統(tǒng)計(jì)理論用在了移動(dòng)物體的檢測(cè)上。對(duì)于移動(dòng)物體,我們的核心思路一向是使用光流進(jìn)行描述。這是因?yàn)椋饬骺梢杂行?lái)移動(dòng)物體的分割信息。比如下邊這個(gè)海洋生物的例子,如果只通過(guò)外觀對(duì)單幀進(jìn)行像素級(jí)的分割,結(jié)果可以說(shuō)是狗屁不通,但是通過(guò)光流分割,就可以準(zhǔn)確獲得物體邊界。
          特別地,兩幀之間的光流比較不穩(wěn)定,而將多幀的光流組合到一起,就可以看到非常穩(wěn)定的分割邊界,這也符合上一節(jié)所說(shuō)的,延遲越高越準(zhǔn)確,例如下邊這個(gè)例子:
          左:視頻;中:幀到幀的光流;右:多幀組合的光流
          在我們的建模中,把幀與幀之間像素的對(duì)應(yīng)關(guān)系,用以下方法進(jìn)行描述:
          其中 是與視頻內(nèi)容無(wú)關(guān)的i.i.d.高斯噪聲。在這個(gè)模型中,如果視頻中只有一個(gè)整體的背景,則通過(guò)一個(gè)統(tǒng)一的運(yùn)動(dòng)模式 就可以描述兩幀之間的對(duì)應(yīng)關(guān)系;而如果視頻中有背景+移動(dòng)物體,則需要對(duì)背景和移動(dòng)物體分別取 , 兩種不同的運(yùn)動(dòng)模式,才能夠描述兩幀之間的對(duì)應(yīng)。理論上,我們可以建立無(wú)數(shù)組 對(duì)多個(gè)目標(biāo)同時(shí)進(jìn)行檢測(cè)。但是由于算力所限,這篇文章只做了前景/背景的二元分割。這樣一來(lái),我們就可以建立如下兩組概率進(jìn)行似然比檢驗(yàn)。
          其中 是robust norm,對(duì)信號(hào)處理不了解的朋友可以直接無(wú)視。當(dāng)然,這兩個(gè)公式只是方法的基本原理。工程方面細(xì)枝末節(jié)的trick在這里就不多說(shuō)了??傮w來(lái)說(shuō),當(dāng)視頻出現(xiàn)移動(dòng)物體時(shí),似然比統(tǒng)計(jì)量會(huì)顯著增加,而到達(dá)某個(gè)閾值后,算法則輸出移動(dòng)物體的探測(cè)結(jié)果。下邊直接放一下結(jié)果,還蠻有趣的:
          視頻鏈接:https://www.zhihu.com/zvideo/1282335357196140544
          通過(guò)改變不同的閾值,算法可以自由選擇不同水平的誤報(bào)率和延遲。如果我需要低延遲而可以忍受高誤報(bào)率,就選擇較低的閾值,反之亦然。通過(guò)改變閾值,我們就可以畫(huà)出如下的誤報(bào)率-延遲曲線。這條曲線的結(jié)果還算比較符合理論的??梢钥吹剑诟髡`報(bào)率下,我們的算法都可以達(dá)到更低的延遲。

          后續(xù)和一些感想

          首先還是說(shuō)一下這個(gè)工作里的坑。說(shuō)實(shí)話,這樣一個(gè)工作更大的意義是學(xué)理上驗(yàn)證了這套理論在視覺(jué)中的應(yīng)用,距離工程上的應(yīng)用,還有很大的距離。部分原因在于,由于工作完成的時(shí)間是2016年,當(dāng)時(shí)還沒(méi)有成熟可靠的快速光流算法和分割算法。而這個(gè)工作需要大量的幀到幀之間的運(yùn)算,所以在實(shí)際運(yùn)算時(shí)間上可以說(shuō)是慘不忍睹。第二點(diǎn),如果仔細(xì)看過(guò)上邊的結(jié)果視頻,不難發(fā)現(xiàn),composed motion經(jīng)常出現(xiàn)重影,對(duì)分割結(jié)果造成影響。這也直接促成了我們用layered model解決移動(dòng)物體分割的后續(xù)工作。關(guān)于這種重影,我會(huì)將來(lái)填“詳解移動(dòng)物體分割、光流和遮擋之間的聯(lián)系”坑的時(shí)候詳細(xì)介紹。
          低延遲的檢測(cè)是我2015年本科畢業(yè)后,零計(jì)算機(jī)基礎(chǔ)入坑視覺(jué)做的第一個(gè)工作。當(dāng)時(shí)我的博士導(dǎo)師給我扔過(guò)來(lái)三篇論文,讓我挑其中一篇最感興趣的當(dāng)科研方向,[1]就是其中一篇。現(xiàn)在回頭想想導(dǎo)師也算是看得起我,一上來(lái)扔過(guò)來(lái)的都是這樣“硬核”的內(nèi)容。搞這個(gè)工作的時(shí)候,其實(shí)相當(dāng)頭疼,畢竟作為一個(gè)零基礎(chǔ)的學(xué)生,一上來(lái)就要平地起高樓做一個(gè)從沒(méi)有人提出過(guò)的問(wèn)題,從白紙開(kāi)始寫(xiě)代碼,自己收集數(shù)據(jù)集,找人做的標(biāo)注,由于沒(méi)有相關(guān)工作,還要從其他方法中創(chuàng)造baseline,總體來(lái)說(shuō)很有挑戰(zhàn)性。雖然相比直接從深度學(xué)習(xí)入坑CV的同學(xué),這讓我對(duì)采用不同思路決視覺(jué)問(wèn)題有更多想法(這在之后的科研過(guò)程中幫了大忙),但是也讓我錯(cuò)過(guò)了17年之前深度學(xué)習(xí)“隨便做做就能發(fā)文章”的爆發(fā)期。不過(guò),在之后的專(zhuān)欄中,我會(huì)介紹如何把低延遲檢測(cè)的理論和基于深度學(xué)習(xí)的檢測(cè)器進(jìn)行結(jié)合,讓這套理論在視覺(jué)問(wèn)題上真正變得可用。
          參考資料
          [1]?V. V. Veeravalli and T. Banerjee. Quickest change detection. Academic press library in signal processing: Array and statistical signal processing, 3:209–256, 2013.
          [2] Dong Lao and Ganesh Sundaramoorthi. Minimum delay moving object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4250–4259, 2017.

          計(jì)算機(jī)視覺(jué)中低延遲檢測(cè)的相關(guān)理論和應(yīng)用(下)


          寫(xiě)在前邊

          今天接著上一次寫(xiě)的東西,繼續(xù)聊一下視覺(jué)中低延遲檢測(cè)的相關(guān)理論和應(yīng)用。在介紹自己的具體工作之前,我覺(jué)得還是有必要把一些想法放在前邊作為一個(gè)引子。
          近年來(lái)AI領(lǐng)域的整體風(fēng)氣,客觀上鼓勵(lì)作者對(duì)論文進(jìn)行商業(yè)廣告式的包裝。論文除學(xué)術(shù)價(jià)值外,還要考慮讀者的接受度和吸引眼球程度。這種風(fēng)氣下,誠(chéng)實(shí)寫(xiě)出一些深層次的思考,或者對(duì)論文的局限性進(jìn)行分析,無(wú)異于授人以柄的自殺行為。我曾經(jīng)遇到過(guò),某審稿人直接把論文Discussion章節(jié)中的算法局限性無(wú)腦寫(xiě)進(jìn)拒稿意見(jiàn),也遇到過(guò)論文提出的方法冒犯到某些審稿人的情況。這種整體風(fēng)氣,對(duì)領(lǐng)域的發(fā)展是絕對(duì)有害的。
          為什么要說(shuō)這一段話呢?因?yàn)榻裉旖榻B的就是這樣一篇工作,為了照顧審稿人和讀者,算法背后有很多的深層次思考卻不能開(kāi)誠(chéng)布公寫(xiě)在論文里。今天的專(zhuān)欄里,我在介紹工作的同時(shí),也會(huì)如實(shí)寫(xiě)下這些思考。

          前情提要

          在上一篇專(zhuān)欄中,我們說(shuō)過(guò),對(duì)于任何檢測(cè)任務(wù),延遲和誤報(bào)率大概有這樣一個(gè)關(guān)系:
          更長(zhǎng)的決策過(guò)程往往能帶來(lái)更高的準(zhǔn)確度,但也會(huì)帶來(lái)更大的延遲。我們通過(guò)統(tǒng)計(jì)學(xué)/信號(hào)處理中Quickest Change Detection理論 [1] (以下簡(jiǎn)稱QD),將這個(gè)問(wèn)題建模成似然比檢驗(yàn),通過(guò)改變不同閾值,調(diào)整延遲和結(jié)果準(zhǔn)確度之間的平衡。
          更詳細(xì)的背景介紹參見(jiàn)上一篇專(zhuān)欄。先前一篇工作,我們通過(guò)光流對(duì)移動(dòng)物體檢測(cè)進(jìn)行了建模,但是由于當(dāng)時(shí)光流算法帶來(lái)的巨大運(yùn)算負(fù)擔(dān),這一套算法難以在實(shí)際的視覺(jué)應(yīng)用中落地。在我們ICCV2019的工作《Minimum Delay Object Detection from Video》[2]中,我們拋棄掉光流,使用目前已經(jīng)發(fā)展相對(duì)成熟的單幀檢測(cè)器(Fast-RCNN、YOLO等),直接對(duì)檢測(cè)框和物體類(lèi)別進(jìn)行概率建模,將已有的單幀檢測(cè)器無(wú)縫對(duì)接到視頻物體的低延遲檢測(cè)中。

          低延遲檢測(cè)的思路

          在視頻物體檢測(cè)中,如果使用上一幀的檢測(cè)結(jié)果作為先驗(yàn),將下一幀的檢測(cè)結(jié)果輸入貝葉斯框架,輸出后驗(yàn),那么總體來(lái)說(shuō),這個(gè)后驗(yàn)結(jié)果融合了兩幀的信息,會(huì)比單幀更準(zhǔn)。在這個(gè)思路下,理論上來(lái)說(shuō)使用的幀數(shù)越多,檢測(cè)越準(zhǔn)。如以下單幀和多幀的對(duì)比:
          但是同時(shí)更多的幀數(shù)會(huì)造成更長(zhǎng)的延遲(延遲 := 物體被檢測(cè)到的時(shí)刻 - 物體出現(xiàn)的時(shí)刻)。如何在保證物體檢測(cè)精度的情況下,盡量降低延遲呢?我們參照QD理論進(jìn)行如下建模:
          假設(shè)一個(gè)物體在時(shí)刻 出現(xiàn)在視頻中,在 離開(kāi)視頻,則這個(gè)物體的移動(dòng)軌跡可以用時(shí)序上的一組檢測(cè)框 表示。這樣的一組檢測(cè)框檢測(cè)框序列,在目標(biāo)追蹤(Data association / tracking)領(lǐng)域被一些人稱作tracklet。簡(jiǎn)單說(shuō),我們的算法目標(biāo)是以低延遲判斷檢測(cè)框序列內(nèi)是否含有物體。因此,我們稱這樣一組檢測(cè)框序列為一個(gè)candidate。在quickest change detection框架下, 可以用如下似然比檢驗(yàn)判斷 時(shí)刻物體是否出現(xiàn)在該candidate內(nèi):
          其中 代表一個(gè)單幀檢測(cè)器在 上的檢測(cè)結(jié)果, 代表candidate中的內(nèi)容從背景變?yōu)榈? 類(lèi)物體(如行人)這一事件發(fā)生的時(shí)刻, 代表給定類(lèi)別 的時(shí)候,事件 發(fā)生的概率。由條件概率的獨(dú)立性, 與類(lèi)別 和檢測(cè)框 獨(dú)立,繼而時(shí)序上各時(shí)刻檢測(cè)結(jié)果的聯(lián)合概率變成各時(shí)刻概率的連乘:
          這里需要明確一下,上邊公式中的條件概率并非簡(jiǎn)單的檢測(cè)器輸出的結(jié)果,具體如何計(jì)算 需要一套比較復(fù)雜的建模。由于這里只介紹低延遲檢測(cè)的整體思路,關(guān)于 的建模待我有空時(shí)會(huì)附在文末,有興趣的朋友可以直接去論文查閱??傊覀兛梢詫?duì)這個(gè)似然比取閾值,進(jìn)行檢測(cè)。閾值越高,結(jié)果越準(zhǔn),但是延遲越大,反之同理。由QD理論中遞歸算法(CuSum算法),我們可以對(duì)上述似然比取log,記為W。最終的檢測(cè)流程可以參照如下框圖。
          整體流程為:
          (1)將已有但似然比未超過(guò)閾值的candidate做tracking進(jìn)入下一幀;
          (2)在下一幀進(jìn)行單幀檢測(cè),生成新的檢測(cè)框,與前一幀tracking后的檢測(cè)框合并到一起;
          (3)對(duì)這些candidate進(jìn)行似然比檢驗(yàn),W超出閾值則輸出檢測(cè)結(jié)果,W小于零則去除該檢測(cè)框,W大于零小于閾值則回到(1),進(jìn)入下一幀。這樣一個(gè)檢測(cè)框架,可以與任何單幀檢測(cè)器結(jié)合。

          結(jié)果

          這篇工作和先前的工作一樣,由于是新問(wèn)題,并沒(méi)有現(xiàn)成的數(shù)據(jù)集,于是我們只能對(duì)KITTI進(jìn)行魔改,將KITTI中對(duì)物體的第一幀標(biāo)注作為這個(gè)物體出現(xiàn)的時(shí)間,計(jì)算平均檢測(cè)延遲??梢钥吹剑瑹o(wú)論與哪種檢測(cè)器相結(jié)合,相比單幀檢測(cè),這種多幀框架下的檢測(cè)方法在相同精度下都可以有效降低檢測(cè)延遲。
          更加有趣的是,這些曲線都是由COCO上預(yù)訓(xùn)練好的檢測(cè)器直接得出,根本沒(méi)有在KITTI上做過(guò)任何finetune。即便如此,只要能夠接受足夠多幀的延遲,這些方法依然可以達(dá)到很低的誤報(bào)率。這其實(shí)是一個(gè)非常有意思的結(jié)果,說(shuō)明用延遲換精度是一個(gè)完全可行的思路。
          文章中還有一些其他圖表,證明了這樣一個(gè)多幀的方法不光可以有效降低檢測(cè)延遲,還可以增加同誤報(bào)率下被準(zhǔn)確檢出的物體數(shù)量,就不一一羅列了。另外,目前使用神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè)都是在GPU進(jìn)行,而該多幀框架則可以在CPU并行執(zhí)行,執(zhí)行速度約50fps。兩者并行的話,已經(jīng)有潛力實(shí)時(shí)應(yīng)用在真正的系統(tǒng)中了。下邊放一個(gè)同誤報(bào)率下,單幀方法和本文方法的對(duì)比,注意視頻上下兩組結(jié)果使用的是完全相同的神經(jīng)網(wǎng)絡(luò)。
          視頻鏈接:https://www.zhihu.com/zvideo/1284627306846834688

          后續(xù)和一些感想

          寫(xiě)這篇論文的時(shí)候,我查閱了不少關(guān)于“視頻物體檢測(cè)”的文獻(xiàn),加上通過(guò)和一些業(yè)界大佬交流,發(fā)現(xiàn)已有的“視頻物體檢測(cè)”算法,例如基于光流的Feature Aggregation、3D 卷積等技術(shù),目前基本上沒(méi)法真正落地(如果說(shuō)的不對(duì)請(qǐng)指正)。究其原因,一是不少方法純煉丹,對(duì)數(shù)據(jù)的依賴強(qiáng),缺少一個(gè)solid的理論框架(這也是深度學(xué)習(xí)通?。?;二是這些方法根本沒(méi)有考慮真正在工業(yè)應(yīng)用上的部署,比如視頻物體檢測(cè)往往要固定temporal window size,極大限制了算法的落地空間。在我做這一篇工作的同期,斯坦福大學(xué)Bill Dally教授組的Huizi Mao同樣出品了一篇關(guān)于檢測(cè)延遲和檢測(cè)精度關(guān)系的論文《A Delay Metric for Video Object Detection: What Average Precision Fails to Tell》[3]。在這篇論文中得出結(jié)論,同等精度下,目前使用多幀的視頻物體檢測(cè)方法在延遲方面輸給單幀檢測(cè)器。
          Mao et al., ICCV 2019.
          出于好奇,我在本文框架下,也對(duì)已有的視頻物體檢測(cè)算法做了些測(cè)試,同樣發(fā)現(xiàn)同等誤報(bào)率下,已有方法同樣不如單幀(結(jié)果未隨論文發(fā)表)。兩篇論文雖然metric不同,但是結(jié)論幾乎一樣。這也就意味著,在真的產(chǎn)品部署中,需要大量運(yùn)算的視頻檢測(cè)器不但沒(méi)有提高檢測(cè)效率,反而幫了倒忙。
          另一方面,工業(yè)界對(duì)于比單幀更穩(wěn)定的檢測(cè)器卻有著貨真價(jià)實(shí)的需求。比如據(jù)說(shuō)某廠在開(kāi)發(fā)工業(yè)探傷算法過(guò)程中,發(fā)現(xiàn)單幀F(xiàn)ast-RCNN的輸出非常noisy。如今在一些產(chǎn)品(例如機(jī)器人、自動(dòng)駕駛、垃圾分揀)中,由于軟硬件限制,要想進(jìn)一步提高單幀的檢測(cè)精度非常之難。與此同時(shí),相機(jī)多抓取一幀,多跑一遍檢測(cè)算法卻并不難。在這樣一套可以自由融合多幀的框架下,改變思路,用一定的檢測(cè)延遲換取更高的精度也許是個(gè)有趣的方向。
          說(shuō)實(shí)話,對(duì)于端到端煉丹在各視頻應(yīng)用上(不只是檢測(cè))難以真正有效這件事,大家也只能心照不宣。真正落地往往其實(shí)還是逐幀分析再做后處理。我個(gè)人看來(lái),對(duì)視頻這類(lèi)有著明確時(shí)序聯(lián)系的任務(wù),或者一些具有已知物理模型的任務(wù)(如光學(xué)成像),完全可以大框架下使用已有的理論完備的模型(如本文介紹的QD),把深度學(xué)習(xí)留給難以用數(shù)學(xué)/統(tǒng)計(jì)學(xué)準(zhǔn)確建模的子模塊(如單幀檢測(cè))。在這個(gè)思路下,我估計(jì)AI領(lǐng)域會(huì)漸漸誕生出兩個(gè)新的流派:【1】放棄對(duì)端到端的執(zhí)念,將傳統(tǒng)模型與深度學(xué)習(xí)結(jié)合,將深度學(xué)習(xí)作為求解器;【2】將統(tǒng)計(jì)模型/物理模型直接融入網(wǎng)絡(luò)設(shè)計(jì),端到端訓(xùn)練出一個(gè)帶有傳統(tǒng)模型性質(zhì)的新方法。這篇工作堅(jiān)決貫徹了【1】的思路,而機(jī)緣巧合,我之后一篇工作,使用了【2】的思路,有興趣的朋友可以持續(xù)關(guān)注本專(zhuān)欄。
          參考資料
          [1] V. V. Veeravalli and T. Banerjee. Quickest change detection. Academic press library in signal processing: Array and statistical signal processing, 3:209–256, 2013.
          [2] Dong Lao and Ganesh Sundaramoorthi. Minimum Delay Object Detection From Video. Proceedings of the IEEE International Conference on Computer Vision, pp. 5097-5106. 2019.
          [3] Mao,?Huizi, Xiaodong Yang, and William J. Dally. A delay metric for video object detection: What average precision fails to tell. Proceedings of the IEEE International Conference on Computer Vision, pp. 573-582. 2019.


          推薦閱讀



          添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳),即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流~

          △長(zhǎng)按添加極市小助手

          △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨

          覺(jué)得有用麻煩給個(gè)在看啦~??


          瀏覽 46
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本色情视频在线观看 | 日本在残a视频观看视频 | 日韩黄色网络 | 国产精品久久久久三级无码 | 亚洲黄色电影免费在线观看 |