跨視角語(yǔ)義分割前沿進(jìn)展|IROS 2020

極市導(dǎo)讀
?本文作者基于自己的論文研究從發(fā)展背景開始闡述了跨視角語(yǔ)義分割前沿的進(jìn)展,文中著重介紹了跨視角語(yǔ)義分割的方法:利用一個(gè)仿真環(huán)境+半監(jiān)督域適應(yīng)的流程緩解沒有真實(shí)數(shù)據(jù)的問題,提出了一種視角轉(zhuǎn)換模塊插入到編碼器和解碼器之間解決傳統(tǒng)2D語(yǔ)義分割的模型結(jié)構(gòu)不能直接套用的問題。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
作者簡(jiǎn)介
潘柏文,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室博士二年級(jí)在讀,師從Prof. Aude Oliva。2019年本科畢業(yè)于上海交通大學(xué)電子工程專業(yè)。他的研究興趣包括計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。
個(gè)人主頁(yè):http://people.csail.mit.edu/bpan/
背景
語(yǔ)義分割(Semantic Segmentation)說到底還是為了讓人工智體更好的去理解場(chǎng)景(Scene Understanding)。什么是理解場(chǎng)景?當(dāng)我們?cè)谡f讓一個(gè)智體去理解場(chǎng)景的時(shí)候,我們究竟在討論什么?這其中包含很多,場(chǎng)景中物體的語(yǔ)義,屬性,場(chǎng)景與物體之間的相對(duì)關(guān)系,場(chǎng)景中人與物體的交互關(guān)系,等等。說實(shí)話很難用一句話來概括,很多研究工作往往也都是在有限的任務(wù)范圍下給出了機(jī)器人理解其所視場(chǎng)景的定義。那么為什么語(yǔ)義分割對(duì)于場(chǎng)景理解來說這么重要?因?yàn)椴还茉趺凑f,場(chǎng)景理解中有些要素是繞不開的,例如目標(biāo)物體的語(yǔ)義, 目標(biāo)物體的坐標(biāo)。當(dāng)我們真正要應(yīng)用場(chǎng)景理解的技術(shù)到實(shí)際生活中時(shí),這兩個(gè)點(diǎn)幾乎是必需的。而語(yǔ)義分割恰好能夠同時(shí)提供這兩種重要的信息。
傳統(tǒng)的 2D 圖像語(yǔ)義分割技術(shù)經(jīng)過眾多研究人員幾年時(shí)間不停的迭代,已經(jīng)發(fā)展到了一個(gè)提升相當(dāng)困難的時(shí)期。同時(shí)這也意味著這項(xiàng)技術(shù)已經(jīng)漸漸的趨于成熟。但傳統(tǒng)的 2D 分割還是有一定的局限性,比如我們很難從 2D 圖像中直接獲知物體的空間位置,以及其在整體空間中的布局。這很直觀,因?yàn)?2D 圖像捅破天也只有 2D 信息,想知道整體空間的位置信息還是需要更多的 3D 信息。事實(shí)上,這件事已經(jīng)有相當(dāng)一部分人在做了。為了讓單純的 2D 圖像(RGB)具有深度信息從而轉(zhuǎn)變成 RGB-D,我們發(fā)展了深度估計(jì)(Depth Estimation);為了讓 RGB-D 變成真正有用的 3D 信息,我們發(fā)展了三維重建(3D Reconstruction)技術(shù);為了得到整個(gè)場(chǎng)景的三維點(diǎn)云,我們發(fā)展了 SLAM;為了得到場(chǎng)景中點(diǎn)云的語(yǔ)義信息,我們又發(fā)展了基于點(diǎn)云的語(yǔ)義分割技術(shù)。這一整套流程下來,我們可以讓機(jī)器人從單純的 2D 圖像出發(fā),得到空間中物體三維的坐標(biāo),語(yǔ)義,和邊界信息。這一連串的思路十分完備,也非常本質(zhì)。然而 3D 數(shù)據(jù)往往又面臨著極為昂貴的計(jì)算成本與數(shù)據(jù)采集和標(biāo)注的成本,不像 2D 數(shù)據(jù)有一臺(tái)手機(jī)就能采集,對(duì)于標(biāo)注人員來說也不如 2D 圖像的標(biāo)注來的那么直觀。
方法介紹
那么我們能不能依舊基于2D圖像,讓機(jī)器人對(duì)于整個(gè)空間中物體的坐標(biāo)有更好的感知?
答案是肯定的。其實(shí)在相當(dāng)一部分實(shí)際任務(wù)中,得到物體準(zhǔn)確的 3D 坐標(biāo)是一件精確過頭的事,就好比能用16位浮點(diǎn)數(shù)解決的任務(wù)我偏偏要用32位,可以但不是必要。很多時(shí)候我們需要 3D 坐標(biāo)只是因?yàn)檫@是一個(gè)清晰的,看得見摸得著的,具體的數(shù)值目標(biāo)。但再好的數(shù)值目標(biāo),跟實(shí)際使用體驗(yàn)的關(guān)聯(lián)性也不是百分百對(duì)應(yīng)的。就好像損失函數(shù)低不一定代表最后的準(zhǔn)確率就高,數(shù)值準(zhǔn)確率高不一定代表實(shí)際的人眼效果就好。扯遠(yuǎn)了,話說回來,基于以上我所說的,我們?cè)谇蠼鉁?zhǔn)確的 3D 信息所需要的代價(jià)與傳統(tǒng)的 2D 分割的局限之間找到了一個(gè)平衡點(diǎn),也就是利用俯視語(yǔ)義圖(Top-down-view Semantic Map)來感知周圍環(huán)境物體的方位與布局。

俯視語(yǔ)義圖(Top-down-view Semantic Map)
我們把從第一視角的 2D 圖像(First-view Observation)得到俯視語(yǔ)義圖(Top-down-view Semantic Map)的過程稱作跨視角語(yǔ)義分割(Cross-view Semantic Segmentation)。跨視角語(yǔ)義分割與傳統(tǒng) 2D 語(yǔ)義分割的區(qū)別在于我們得到的不再是一張與原圖逐像素對(duì)應(yīng)的語(yǔ)義圖,而是一張俯視視角下看到的周圍環(huán)境的語(yǔ)義圖。另外對(duì)于模型的輸入來說,跨視角語(yǔ)義分割的輸入從 2D 語(yǔ)義分割的一張 RGB 圖變成了多張第一視角的任意模態(tài)的圖(RGB,Semantic Mask,Depth)。
由于這是一個(gè)新問題,現(xiàn)有的語(yǔ)義分割數(shù)據(jù)集并不支持我們?nèi)ビ?xùn)練這樣一個(gè)跨視角語(yǔ)義分割的模型。我們于是將目光投向了一些模擬仿真環(huán)境(Simulated Environment),例如 House3D,Gibson Environment,Matterport3D。我們從這些模擬仿真環(huán)境中提取第一視角的圖像以及對(duì)應(yīng)的俯視語(yǔ)義圖,從而完成訓(xùn)練過程。然而仿真環(huán)境中提取的圖像與真實(shí)世界的圖像還是有著很大的差別,因此我們?cè)诓渴鹞覀兊哪P偷秸鎸?shí)世界的時(shí)候還做了一步半監(jiān)督的域適應(yīng)(Domain Adaptation)。我們利用這樣一個(gè)仿真環(huán)境+半監(jiān)督域適應(yīng)的流程暫時(shí)緩解了沒有真實(shí)數(shù)據(jù)的問題。但是在未來如果我們需要對(duì)這個(gè)方向進(jìn)行長(zhǎng)足的發(fā)展,真實(shí)世界的數(shù)據(jù)仍然是不可或缺的。
從模型結(jié)構(gòu)的角度來看,我們的實(shí)驗(yàn)發(fā)現(xiàn),由于不存在像素級(jí)的對(duì)應(yīng)關(guān)系,傳統(tǒng)2D語(yǔ)義分割的模型結(jié)構(gòu)并不能直接套用在我們跨視角語(yǔ)義分割的任務(wù)上。然而為了能夠繼承這些極為優(yōu)秀的,凝結(jié)了許多前人智慧的傳統(tǒng) 2D 語(yǔ)義分割的模型結(jié)構(gòu),我們提出了一種視角轉(zhuǎn)換模塊(View Transformer Module)插入到編碼器(Encoder)和解碼器(Decoder)之間。這種視角轉(zhuǎn)換模塊保持了原來的模型結(jié)構(gòu),從而在跨視角語(yǔ)義分割任務(wù)上更好的發(fā)揮作用。

整體框架圖
我們這項(xiàng)工作《Cross-view Semantic Segmentation for Sensing Surroundings》在今年上半年的時(shí)候被期刊 RA-L 收錄,同時(shí)這幾天也在 IROS 2020 大會(huì)上展示。文章展示了更多的方法與實(shí)驗(yàn)上的細(xì)節(jié)。我們針對(duì)這個(gè)問題做了很多實(shí)驗(yàn),對(duì)比了一些其他方法比如傳統(tǒng) 3D 投影,基于圖像生成模型的方法,探究了視角轉(zhuǎn)換器真正的作用,展示了很多真實(shí)世界中的跨視角分割效果圖,還設(shè)計(jì)了兩個(gè)室內(nèi)導(dǎo)航的小實(shí)驗(yàn),其中一個(gè)在真實(shí)的機(jī)器人上也做了實(shí)驗(yàn)。感興趣的同學(xué)可以戳我們的項(xiàng)目主頁(yè)。
IROS 2020會(huì)議舉辦時(shí),但是因?yàn)橐咔榈年P(guān)系大會(huì)改成了線上舉辦的模式,文章全被做成視頻放在了https://www.iros2020.org/ondemand/上供大家自由探索,沒有與作者的互動(dòng),因此希望能借這篇文章以這種形式向大家介紹一下我們的工作。有任何想法都可以隨時(shí)通過郵件找我交流,期待能激發(fā)大家的一些想法,一起推動(dòng)這個(gè)領(lǐng)域的發(fā)展。
結(jié)語(yǔ)
這項(xiàng)工作是我與周博磊老師深度合作的第一個(gè)項(xiàng)目,項(xiàng)目的主體部分其實(shí)在2018年的時(shí)候就已經(jīng)完成的差不多了。那時(shí)我還在讀本科,剛到 MIT 實(shí)習(xí),周老師剛從 MIT 博士畢業(yè),到 CUHK 開始教職生涯。但不料想這篇文章前前后后被拒了大概三四次,修修補(bǔ)補(bǔ)了兩年,直到今年年初才發(fā)出來。現(xiàn)在我開啟了我的 PhD 生涯,周老師在香港組建了他的團(tuán)隊(duì),聲勢(shì)逐漸浩大,一晃兩年了。這是我第一篇被連拒的文章(以后或許會(huì)有更多),每次從被拒到修改再投的過程都是對(duì)于心態(tài)的一次磨煉,也是對(duì)文章本身更加深刻的思考。非常感謝周老師的鼓勵(lì),敦促與指導(dǎo)。最近伯克利,F(xiàn)AIR,NVIDIA 等一些機(jī)構(gòu)發(fā)表了幾篇與我們這項(xiàng)工作密切相關(guān)的文章,也讓我越來越相信我們這項(xiàng)工作的意義,希望能給大家?guī)硪稽c(diǎn)啟發(fā)。感謝!
論文地址:https://arxiv.org/pdf/1906.03560.pdf
推薦閱讀

