首先還是說一下這個工作里的坑。說實話,這樣一個工作更大的意義是學(xué)理上驗證了這套理論在視覺中的應(yīng)用,距離工程上的應(yīng)用,還有很大的距離。部分原因在于,由于工作完成的時間是2016年,當(dāng)時還沒有成熟可靠的快速光流算法和分割算法。而這個工作需要大量的幀到幀之間的運算,所以在實際運算時間上可以說是慘不忍睹。第二點,如果仔細(xì)看過上邊的結(jié)果視頻,不難發(fā)現(xiàn),composed motion經(jīng)常出現(xiàn)重影,對分割結(jié)果造成影響。這也直接促成了我們用layered model解決移動物體分割的后續(xù)工作。關(guān)于這種重影,我會將來填“詳解移動物體分割、光流和遮擋之間的聯(lián)系”坑的時候詳細(xì)介紹。低延遲的檢測是我2015年本科畢業(yè)后,零計算機基礎(chǔ)入坑視覺做的第一個工作。當(dāng)時我的博士導(dǎo)師給我扔過來三篇論文,讓我挑其中一篇最感興趣的當(dāng)科研方向,[1]就是其中一篇。現(xiàn)在回頭想想導(dǎo)師也算是看得起我,一上來扔過來的都是這樣“硬核”的內(nèi)容。搞這個工作的時候,其實相當(dāng)頭疼,畢竟作為一個零基礎(chǔ)的學(xué)生,一上來就要平地起高樓做一個從沒有人提出過的問題,從白紙開始寫代碼,自己收集數(shù)據(jù)集,找人做的標(biāo)注,由于沒有相關(guān)工作,還要從其他方法中創(chuàng)造baseline,總體來說很有挑戰(zhàn)性。雖然相比直接從深度學(xué)習(xí)入坑CV的同學(xué),這讓我對采用不同思路決視覺問題有更多想法(這在之后的科研過程中幫了大忙),但是也讓我錯過了17年之前深度學(xué)習(xí)“隨便做做就能發(fā)文章”的爆發(fā)期。不過,在之后的專欄中,我會介紹如何把低延遲檢測的理論和基于深度學(xué)習(xí)的檢測器進行結(jié)合,讓這套理論在視覺問題上真正變得可用。參考資料[1]?V. V. Veeravalli and T. Banerjee. Quickest change detection. Academic press library in signal processing: Array and statistical signal processing, 3:209–256, 2013.[2] Dong Lao and Ganesh Sundaramoorthi. Minimum delay moving object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4250–4259, 2017.
寫這篇論文的時候,我查閱了不少關(guān)于“視頻物體檢測”的文獻,加上通過和一些業(yè)界大佬交流,發(fā)現(xiàn)已有的“視頻物體檢測”算法,例如基于光流的Feature Aggregation、3D 卷積等技術(shù),目前基本上沒法真正落地(如果說的不對請指正)。究其原因,一是不少方法純煉丹,對數(shù)據(jù)的依賴強,缺少一個solid的理論框架(這也是深度學(xué)習(xí)通?。欢沁@些方法根本沒有考慮真正在工業(yè)應(yīng)用上的部署,比如視頻物體檢測往往要固定temporal window size,極大限制了算法的落地空間。在我做這一篇工作的同期,斯坦福大學(xué)Bill Dally教授組的Huizi Mao同樣出品了一篇關(guān)于檢測延遲和檢測精度關(guān)系的論文《A Delay Metric for Video Object Detection: What Average Precision Fails to Tell》[3]。在這篇論文中得出結(jié)論,同等精度下,目前使用多幀的視頻物體檢測方法在延遲方面輸給單幀檢測器。Mao et al., ICCV 2019.出于好奇,我在本文框架下,也對已有的視頻物體檢測算法做了些測試,同樣發(fā)現(xiàn)同等誤報率下,已有方法同樣不如單幀(結(jié)果未隨論文發(fā)表)。兩篇論文雖然metric不同,但是結(jié)論幾乎一樣。這也就意味著,在真的產(chǎn)品部署中,需要大量運算的視頻檢測器不但沒有提高檢測效率,反而幫了倒忙。另一方面,工業(yè)界對于比單幀更穩(wěn)定的檢測器卻有著貨真價實的需求。比如據(jù)說某廠在開發(fā)工業(yè)探傷算法過程中,發(fā)現(xiàn)單幀F(xiàn)ast-RCNN的輸出非常noisy。如今在一些產(chǎn)品(例如機器人、自動駕駛、垃圾分揀)中,由于軟硬件限制,要想進一步提高單幀的檢測精度非常之難。與此同時,相機多抓取一幀,多跑一遍檢測算法卻并不難。在這樣一套可以自由融合多幀的框架下,改變思路,用一定的檢測延遲換取更高的精度也許是個有趣的方向。說實話,對于端到端煉丹在各視頻應(yīng)用上(不只是檢測)難以真正有效這件事,大家也只能心照不宣。真正落地往往其實還是逐幀分析再做后處理。我個人看來,對視頻這類有著明確時序聯(lián)系的任務(wù),或者一些具有已知物理模型的任務(wù)(如光學(xué)成像),完全可以大框架下使用已有的理論完備的模型(如本文介紹的QD),把深度學(xué)習(xí)留給難以用數(shù)學(xué)/統(tǒng)計學(xué)準(zhǔn)確建模的子模塊(如單幀檢測)。在這個思路下,我估計AI領(lǐng)域會漸漸誕生出兩個新的流派:【1】放棄對端到端的執(zhí)念,將傳統(tǒng)模型與深度學(xué)習(xí)結(jié)合,將深度學(xué)習(xí)作為求解器;【2】將統(tǒng)計模型/物理模型直接融入網(wǎng)絡(luò)設(shè)計,端到端訓(xùn)練出一個帶有傳統(tǒng)模型性質(zhì)的新方法。這篇工作堅決貫徹了【1】的思路,而機緣巧合,我之后一篇工作,使用了【2】的思路,有興趣的朋友可以持續(xù)關(guān)注本專欄。參考資料[1] V. V. Veeravalli and T. Banerjee. Quickest change detection. Academic press library in signal processing: Array and statistical signal processing, 3:209–256, 2013.[2] Dong Lao and Ganesh Sundaramoorthi. Minimum Delay Object Detection From Video. Proceedings of the IEEE International Conference on Computer Vision, pp. 5097-5106. 2019.[3] Mao,?Huizi, Xiaodong Yang, and William J. Dally. A delay metric for video object detection: What average precision fails to tell. Proceedings of the IEEE International Conference on Computer Vision, pp. 573-582. 2019.