<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          跨視角語(yǔ)義分割前沿進(jìn)展|IROS 2020

          共 3693字,需瀏覽 8分鐘

           ·

          2020-11-15 03:37

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          作者丨潘柏文@知乎問答
          來源丨3D視覺工坊
          編輯丨極市平臺(tái)
          本文僅作學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系后臺(tái)進(jìn)行刪文處理。

          極市導(dǎo)讀

          ?

          本文作者基于自己的論文研究從發(fā)展背景開始闡述了跨視角語(yǔ)義分割前沿的進(jìn)展,文中著重介紹了跨視角語(yǔ)義分割的方法:利用一個(gè)仿真環(huán)境+半監(jiān)督域適應(yīng)的流程緩解沒有真實(shí)數(shù)據(jù)的問題,提出了一種視角轉(zhuǎn)換模塊插入到編碼器和解碼器之間解決傳統(tǒng)2D語(yǔ)義分割的模型結(jié)構(gòu)不能直接套用的問題。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          作者簡(jiǎn)介

          潘柏文,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室博士二年級(jí)在讀,師從Prof. Aude Oliva。2019年本科畢業(yè)于上海交通大學(xué)電子工程專業(yè)。他的研究興趣包括計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。

          個(gè)人主頁(yè):http://people.csail.mit.edu/bpan/

          背景

          語(yǔ)義分割(Semantic Segmentation)說到底還是為了讓人工智體更好的去理解場(chǎng)景(Scene Understanding)。什么是理解場(chǎng)景?當(dāng)我們?cè)谡f讓一個(gè)智體去理解場(chǎng)景的時(shí)候,我們究竟在討論什么?這其中包含很多,場(chǎng)景中物體的語(yǔ)義,屬性,場(chǎng)景與物體之間的相對(duì)關(guān)系,場(chǎng)景中人與物體的交互關(guān)系,等等。說實(shí)話很難用一句話來概括,很多研究工作往往也都是在有限的任務(wù)范圍下給出了機(jī)器人理解其所視場(chǎng)景的定義。那么為什么語(yǔ)義分割對(duì)于場(chǎng)景理解來說這么重要?因?yàn)椴还茉趺凑f,場(chǎng)景理解中有些要素是繞不開的,例如目標(biāo)物體的語(yǔ)義, 目標(biāo)物體的坐標(biāo)。當(dāng)我們真正要應(yīng)用場(chǎng)景理解的技術(shù)到實(shí)際生活中時(shí),這兩個(gè)點(diǎn)幾乎是必需的。而語(yǔ)義分割恰好能夠同時(shí)提供這兩種重要的信息。

          傳統(tǒng)的 2D 圖像語(yǔ)義分割技術(shù)經(jīng)過眾多研究人員幾年時(shí)間不停的迭代,已經(jīng)發(fā)展到了一個(gè)提升相當(dāng)困難的時(shí)期。同時(shí)這也意味著這項(xiàng)技術(shù)已經(jīng)漸漸的趨于成熟。但傳統(tǒng)的 2D 分割還是有一定的局限性,比如我們很難從 2D 圖像中直接獲知物體的空間位置,以及其在整體空間中的布局。這很直觀,因?yàn)?2D 圖像捅破天也只有 2D 信息,想知道整體空間的位置信息還是需要更多的 3D 信息。事實(shí)上,這件事已經(jīng)有相當(dāng)一部分人在做了。為了讓單純的 2D 圖像(RGB)具有深度信息從而轉(zhuǎn)變成 RGB-D,我們發(fā)展了深度估計(jì)(Depth Estimation);為了讓 RGB-D 變成真正有用的 3D 信息,我們發(fā)展了三維重建(3D Reconstruction)技術(shù);為了得到整個(gè)場(chǎng)景的三維點(diǎn)云,我們發(fā)展了 SLAM;為了得到場(chǎng)景中點(diǎn)云的語(yǔ)義信息,我們又發(fā)展了基于點(diǎn)云的語(yǔ)義分割技術(shù)。這一整套流程下來,我們可以讓機(jī)器人從單純的 2D 圖像出發(fā),得到空間中物體三維的坐標(biāo),語(yǔ)義,和邊界信息。這一連串的思路十分完備,也非常本質(zhì)。然而 3D 數(shù)據(jù)往往又面臨著極為昂貴的計(jì)算成本與數(shù)據(jù)采集和標(biāo)注的成本,不像 2D 數(shù)據(jù)有一臺(tái)手機(jī)就能采集,對(duì)于標(biāo)注人員來說也不如 2D 圖像的標(biāo)注來的那么直觀。

          方法介紹

          那么我們能不能依舊基于2D圖像,讓機(jī)器人對(duì)于整個(gè)空間中物體的坐標(biāo)有更好的感知?

          答案是肯定的。其實(shí)在相當(dāng)一部分實(shí)際任務(wù)中,得到物體準(zhǔn)確的 3D 坐標(biāo)是一件精確過頭的事,就好比能用16位浮點(diǎn)數(shù)解決的任務(wù)我偏偏要用32位,可以但不是必要。很多時(shí)候我們需要 3D 坐標(biāo)只是因?yàn)檫@是一個(gè)清晰的,看得見摸得著的,具體的數(shù)值目標(biāo)。但再好的數(shù)值目標(biāo),跟實(shí)際使用體驗(yàn)的關(guān)聯(lián)性也不是百分百對(duì)應(yīng)的。就好像損失函數(shù)低不一定代表最后的準(zhǔn)確率就高,數(shù)值準(zhǔn)確率高不一定代表實(shí)際的人眼效果就好。扯遠(yuǎn)了,話說回來,基于以上我所說的,我們?cè)谇蠼鉁?zhǔn)確的 3D 信息所需要的代價(jià)與傳統(tǒng)的 2D 分割的局限之間找到了一個(gè)平衡點(diǎn),也就是利用俯視語(yǔ)義圖(Top-down-view Semantic Map)來感知周圍環(huán)境物體的方位與布局。

          俯視語(yǔ)義圖(Top-down-view Semantic Map)

          我們把從第一視角的 2D 圖像(First-view Observation)得到俯視語(yǔ)義圖(Top-down-view Semantic Map)的過程稱作跨視角語(yǔ)義分割(Cross-view Semantic Segmentation)。跨視角語(yǔ)義分割與傳統(tǒng) 2D 語(yǔ)義分割的區(qū)別在于我們得到的不再是一張與原圖逐像素對(duì)應(yīng)的語(yǔ)義圖,而是一張俯視視角下看到的周圍環(huán)境的語(yǔ)義圖。另外對(duì)于模型的輸入來說,跨視角語(yǔ)義分割的輸入從 2D 語(yǔ)義分割的一張 RGB 圖變成了多張第一視角的任意模態(tài)的圖(RGB,Semantic Mask,Depth)。

          由于這是一個(gè)新問題,現(xiàn)有的語(yǔ)義分割數(shù)據(jù)集并不支持我們?nèi)ビ?xùn)練這樣一個(gè)跨視角語(yǔ)義分割的模型。我們于是將目光投向了一些模擬仿真環(huán)境(Simulated Environment),例如 House3D,Gibson Environment,Matterport3D。我們從這些模擬仿真環(huán)境中提取第一視角的圖像以及對(duì)應(yīng)的俯視語(yǔ)義圖,從而完成訓(xùn)練過程。然而仿真環(huán)境中提取的圖像與真實(shí)世界的圖像還是有著很大的差別,因此我們?cè)诓渴鹞覀兊哪P偷秸鎸?shí)世界的時(shí)候還做了一步半監(jiān)督的域適應(yīng)(Domain Adaptation)。我們利用這樣一個(gè)仿真環(huán)境+半監(jiān)督域適應(yīng)的流程暫時(shí)緩解了沒有真實(shí)數(shù)據(jù)的問題。但是在未來如果我們需要對(duì)這個(gè)方向進(jìn)行長(zhǎng)足的發(fā)展,真實(shí)世界的數(shù)據(jù)仍然是不可或缺的。

          從模型結(jié)構(gòu)的角度來看,我們的實(shí)驗(yàn)發(fā)現(xiàn),由于不存在像素級(jí)的對(duì)應(yīng)關(guān)系,傳統(tǒng)2D語(yǔ)義分割的模型結(jié)構(gòu)并不能直接套用在我們跨視角語(yǔ)義分割的任務(wù)上。然而為了能夠繼承這些極為優(yōu)秀的,凝結(jié)了許多前人智慧的傳統(tǒng) 2D 語(yǔ)義分割的模型結(jié)構(gòu),我們提出了一種視角轉(zhuǎn)換模塊(View Transformer Module)插入到編碼器(Encoder)和解碼器(Decoder)之間。這種視角轉(zhuǎn)換模塊保持了原來的模型結(jié)構(gòu),從而在跨視角語(yǔ)義分割任務(wù)上更好的發(fā)揮作用。

          整體框架圖

          我們這項(xiàng)工作《Cross-view Semantic Segmentation for Sensing Surroundings》在今年上半年的時(shí)候被期刊 RA-L 收錄,同時(shí)這幾天也在 IROS 2020 大會(huì)上展示。文章展示了更多的方法與實(shí)驗(yàn)上的細(xì)節(jié)。我們針對(duì)這個(gè)問題做了很多實(shí)驗(yàn),對(duì)比了一些其他方法比如傳統(tǒng) 3D 投影,基于圖像生成模型的方法,探究了視角轉(zhuǎn)換器真正的作用,展示了很多真實(shí)世界中的跨視角分割效果圖,還設(shè)計(jì)了兩個(gè)室內(nèi)導(dǎo)航的小實(shí)驗(yàn),其中一個(gè)在真實(shí)的機(jī)器人上也做了實(shí)驗(yàn)。感興趣的同學(xué)可以戳我們的項(xiàng)目主頁(yè)。

          IROS 2020會(huì)議舉辦時(shí),但是因?yàn)橐咔榈年P(guān)系大會(huì)改成了線上舉辦的模式,文章全被做成視頻放在了https://www.iros2020.org/ondemand/上供大家自由探索,沒有與作者的互動(dòng),因此希望能借這篇文章以這種形式向大家介紹一下我們的工作。有任何想法都可以隨時(shí)通過郵件找我交流,期待能激發(fā)大家的一些想法,一起推動(dòng)這個(gè)領(lǐng)域的發(fā)展。

          結(jié)語(yǔ)

          這項(xiàng)工作是我與周博磊老師深度合作的第一個(gè)項(xiàng)目,項(xiàng)目的主體部分其實(shí)在2018年的時(shí)候就已經(jīng)完成的差不多了。那時(shí)我還在讀本科,剛到 MIT 實(shí)習(xí),周老師剛從 MIT 博士畢業(yè),到 CUHK 開始教職生涯。但不料想這篇文章前前后后被拒了大概三四次,修修補(bǔ)補(bǔ)了兩年,直到今年年初才發(fā)出來。現(xiàn)在我開啟了我的 PhD 生涯,周老師在香港組建了他的團(tuán)隊(duì),聲勢(shì)逐漸浩大,一晃兩年了。這是我第一篇被連拒的文章(以后或許會(huì)有更多),每次從被拒到修改再投的過程都是對(duì)于心態(tài)的一次磨煉,也是對(duì)文章本身更加深刻的思考。非常感謝周老師的鼓勵(lì),敦促與指導(dǎo)。最近伯克利,F(xiàn)AIR,NVIDIA 等一些機(jī)構(gòu)發(fā)表了幾篇與我們這項(xiàng)工作密切相關(guān)的文章,也讓我越來越相信我們這項(xiàng)工作的意義,希望能給大家?guī)硪稽c(diǎn)啟發(fā)。感謝!

          論文地址:https://arxiv.org/pdf/1906.03560.pdf



          推薦閱讀


            添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳),即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

            △長(zhǎng)按添加極市小助手

            △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨

            覺得有用麻煩給個(gè)在看啦~??
            瀏覽 69
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            評(píng)論
            圖片
            表情
            推薦
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            <kbd id="afajh"><form id="afajh"></form></kbd>
            <strong id="afajh"><dl id="afajh"></dl></strong>
              <del id="afajh"><form id="afajh"></form></del>
                  1. <th id="afajh"><progress id="afajh"></progress></th>
                    <b id="afajh"><abbr id="afajh"></abbr></b>
                    <th id="afajh"><progress id="afajh"></progress></th>
                    欧美精品性视频 | 啪啪成人免费网站 | 国产精品秘 久久久久久电影院 | 日韩精品在线观看免费 | 日韩欧美一级操逼大片 |