<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2020年,語義分割可以在哪些方向進行研究并取得突破?

          共 4110字,需瀏覽 9分鐘

           ·

          2020-11-18 19:39

          僅作學術分享,不代表本公眾號立場,侵權聯(lián)系刪除
          轉(zhuǎn)載于:鏈接:https://www.zhihu.com/question/376432270

          編輯:深度學習與計算機視覺

          作者:潘柏文
          https://www.zhihu.com/question/376432270/answer/1546840595
          當然是跨視角語義分割(Cross-view Semantic Segmentation)。

          語義分割(Semantic Segmentation)說到底還是為了讓人工智體更好的去理解場景(Scene Understanding)。什么是理解場景?當我們在說讓一個智體去理解場景的時候,我們究竟在討論什么?這其中包含很多,場景中物體的語義,屬性,場景與物體之間的相對關系,場景中人與物體的交互關系,等等。說實話很難用一句話來概括,很多研究工作往往也都是在有限的任務范圍下給出了機器人理解其所視場景的定義。那么為什么語義分割對于場景理解來說這么重要?因為不管怎么說,場景理解中有些要素是繞不開的,例如目標物體的語義, 目標物體的坐標。當我們真正要應用場景理解的技術到實際生活中時,這兩個點幾乎是必需的。而語義分割恰好能夠同時提供這兩種重要的信息。

          傳統(tǒng)的2D圖像語義分割技術經(jīng)過眾多研究人員幾年時間不停的迭代,已經(jīng)發(fā)展到了一個提升相當困難的時期。同時這也意味著這項技術已經(jīng)漸漸的趨于成熟。但傳統(tǒng)的2D分割還是有一定的局限性,比如我們很難從2D圖像中直接獲知物體的空間位置,以及其在整體空間中的布局。這很直觀,因為2D圖像捅破天也只有2D信息,想知道整體空間的位置信息還是需要更多的3D信息。事實上,這件事已經(jīng)有相當一部分人在做了。為了讓單純的2D圖像(RGB)具有深度信息從而轉(zhuǎn)變成RGB-D,我們發(fā)展了深度估計(Depth Estimation);為了讓RGB-D變成真正有用的3D信息,我們發(fā)展了三維重建(3D Reconstruction)技術;為了得到整個場景的三維點云,我們發(fā)展了SLAM;為了得到場景中點云的語義信息,我們又發(fā)展了基于點云的語義分割技術。這一整套流程下來,我們可以讓機器人從單純的2D圖像出發(fā),得到空間中物體三維的坐標,語義,和邊界信息。這一連串的思路十分完備,也非常本質(zhì)。然而3D數(shù)據(jù)往往又面臨著極為昂貴的計算成本與數(shù)據(jù)采集和標注的成本,不像2D數(shù)據(jù)有一臺手機就能采集,對于標注人員來說也不如2D圖像的標注來的那么直觀。

          那么我們能不能依舊基于2D圖像,讓機器人對于整個空間中物體的坐標有更好的感知?

          答案是肯定的。其實在相當一部分實際任務中,得到物體準確的3D坐標是一件精確過頭的事,就好比能用16位浮點數(shù)解決的任務我偏偏要用32位,可以但不是必要。很多時候我們需要3D坐標只是因為這是一個清晰的,看得見摸得著的,具體的數(shù)值目標。但再好的數(shù)值目標,跟實際使用體驗的關聯(lián)性也不是百分百對應的。就好像損失函數(shù)低不一定代表最后的準確率就高,數(shù)值準確率高不一定代表實際的人眼效果就好。扯遠了,話說回來,基于以上我所說的,我們在求解準確的3D信息所需要的代價與傳統(tǒng)的2D分割的局限之間找到了一個平衡點,也就是利用俯視語義圖(Top-down-view Semantic Map)來感知周圍環(huán)境物體的方位與布局

          俯視語義圖(Top-down-view Semantic Map)

          我們把從第一視角的2D圖像(First-view Observation)得到俯視語義圖(Top-down-view Semantic Map)的過程稱作跨視角語義分割(Cross-view Semantic Segmentation)。跨視角語義分割與傳統(tǒng)2D語義分割的區(qū)別在于我們得到的不再是一張與原圖逐像素對應的語義圖,而是一張俯視視角下看到的周圍環(huán)境的語義圖。另外對于模型的輸入來說,跨視角語義分割的輸入從2D語義分割的一張RGB圖變成了多張第一視角的任意模態(tài)的圖(RGB,Semantic Mask,Depth)。

          由于這是一個新問題,現(xiàn)有的語義分割數(shù)據(jù)集并不支持我們?nèi)ビ柧氝@樣一個跨視角語義分割的模型。我們于是將目光投向了一些模擬仿真環(huán)境(Simulated Environment),例如House3D,Gibson Environment,Matterport3D。我們從這些模擬仿真環(huán)境中提取第一視角的圖像以及對應的俯視語義圖,從而完成訓練過程。然而仿真環(huán)境中提取的圖像與真實世界的圖像還是有著很大的差別,因此我們在部署我們的模型到真實世界的時候還做了一步半監(jiān)督的域適應(Domain Adaptation)。我們利用這樣一個仿真環(huán)境+半監(jiān)督域適應的流程暫時緩解了沒有真實數(shù)據(jù)的問題。但是在未來如果我們需要對這個方向進行長足的發(fā)展,真實世界的數(shù)據(jù)仍然是不可或缺的。

          從模型結構的角度來看,我們的實驗發(fā)現(xiàn),由于不存在像素級的對應關系,傳統(tǒng)2D語義分割的模型結構并不能直接套用在我們跨視角語義分割的任務上。然而為了能夠繼承這些極為優(yōu)秀的,凝結了許多前人智慧的傳統(tǒng)2D語義分割的模型結構,我們提出了一種視角轉(zhuǎn)換模塊(View Transformer Module)插入到編碼器(Encoder)和解碼器(Decoder)之間。這種視角轉(zhuǎn)換模塊保持了原來的模型結構,從而在跨視角語義分割任務上更好的發(fā)揮作用。

          整體框架圖
          我們這項工作《Cross-view Semantic Segmentation for Sensing Surroundings》在今年上半年的時候被期刊RA-L收錄,同時這幾天也在IROS2020大會上展示。文章展示了更多的方法與實驗上的細節(jié)。我們針對這個問題做了很多實驗,對比了一些其他方法比如傳統(tǒng)3D投影,基于圖像生成模型的方法,探究了視角轉(zhuǎn)換器真正的作用,展示了很多真實世界中的跨視角分割效果圖,還設計了兩個室內(nèi)導航的小實驗,其中一個在真實的機器人上也做了實驗。感興趣的同學可以戳我們的項目主頁https://decisionforce.github.io/VPN/。
          這幾天I篇與我們這項工作密切相關的文章,也讓我越來越相信我們這項工作的意義,希望能給大家?guī)硪稽c啟發(fā)。

          作者:Ranger
          https://www.zhihu.com/question/376432270/answer/1301138347
          個人拙見:
          1.semantic segmentation結合其他任務,如object detection或depth/normal prediction的multi-task框架。類似這幾篇的框架:
          1) Instance-aware Semantic Segmentation via Multi-task Network Cascades
          2) Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
          3) Cross-Domain Self-supervised Multi-task Feature Learning using Synthetic Imagery

          2.利用data-fusion來優(yōu)化semantic segmentation,例如:

          1)FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture
          2)MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with Multi-Spectral Scenes
          3. feature adaption,例如從GTA5到CityScapes,這樣的話就可以用大量的synthetic圖片來訓練,然后通過feature adaption來直接在真實數(shù)據(jù)上得到很好的效果。推薦我非常喜歡的一篇paper:
          CyCADA: Cycle-Consistent Adversarial Domain Adaptation
          4. self-supervised learning,這類一般得集合具體的應用。比如能通過一些傳統(tǒng)方法生成一些label然后再去學習怎么finetune。

          作者:桂能
          https://www.zhihu.com/question/376432270/answer/1301176481

          其實是因為前面深度學習這一波走的太順了,尤其CNN出來,然后gan沒過多少年就出來了,其實你看看前面大概八十年的ai歷史,大部分時候圖像處理走的都很慢,那才是常態(tài)。

          現(xiàn)在這么大的成果,想要再做哪怕一點點improvement都很難,現(xiàn)在好多可能一線研究的人,都要去從數(shù)學那一塊找新東西,比如弄一個很新的loss,或者很新的regulizer,這些有些以前可能只在理論上出現(xiàn)過,而且都是那種非常冷門高端的理論,比如stoc這種,然后你放到工程上來,也不一定什么時候都很work。

          反正前路還是有點難的。


          作者:Jowey https://www.zhihu.com/question/376432270/answer/1561921142

          1.domain-adaptation和generalization
          2.few-shot
          畢竟分割的數(shù)據(jù)獲取代價比較大,在現(xiàn)實世界中模型所使用的數(shù)據(jù)分布還存在shift.

          end



          往期精彩:

          【原創(chuàng)首發(fā)】機器學習公式推導與代碼實現(xiàn)30講.pdf

          【原創(chuàng)首發(fā)】深度學習語義分割理論與實戰(zhàn)指南.pdf

          ?真正想做算法的,不要害怕內(nèi)卷

          ?技術學習不能眼高手低

          求個在看!

          瀏覽 68
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  超碰操朝鲜女人网 | AV天堂成人电影 | 国产草视频在线播放 | 午夜无码中文 | 国产欧美91av研究在线 |