<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          繼 Facebook 開源 PyTorch3D 后,谷歌開源 TensorFlow 3D 場景理解庫

          共 2864字,需瀏覽 6分鐘

           ·

          2021-03-15 12:00

          轉(zhuǎn)自:機(jī)器之心

          【導(dǎo)語】:繼 2020 年初 Facebook 開源基于 PyTorch 的 3D 計(jì)算機(jī)視覺庫 PyTorch3D 之后,谷歌也于近日開源了一個(gè)基于 TF 框架的高度模塊化和高效處理庫 TensorFlow 3D。目前,該庫已經(jīng)開源。


          3D 計(jì)算機(jī)視覺是一個(gè)非常重要的研究課題,選擇合適的計(jì)算框架對處理效果將會產(chǎn)生很大的影響。此前,機(jī)器之心曾介紹過 Facebook 開源的基于 PyTorch 框架的 3D 計(jì)算機(jī)視覺處理庫 PyTorch3D,該庫在 3D 建模、渲染等多方面處理操作上表現(xiàn)出了更好的效果。

          最近,另一個(gè)常用的深度學(xué)習(xí)框架 TensorFlow 也有了自己的高度模塊化和高效處理庫。它就是谷歌 AI 推出的 TensorFlow 3D(TF 3D),將 3D 深度學(xué)習(xí)能力引入到了 TensorFlow 框架中。TF 3D 庫基于 TensorFlow 2 和 Keras 構(gòu)建,使得更易于構(gòu)建、訓(xùn)練和部署 3D 語義分割、3D 實(shí)例分割和 3D 目標(biāo)檢測模型。目前,TF 3D 庫已經(jīng)開源。


          GitHub 項(xiàng)目地址:https://github.com/google-research/google-research/tree/master/tf3d

          TF 3D 提供了一系列流行的運(yùn)算、損失函數(shù)、數(shù)據(jù)處理工具、模型和指標(biāo),使得更廣泛的研究社區(qū)方便地開發(fā)、訓(xùn)練和部署 SOTA 3D 場景理解模型。TF 3D 還包含用于 SOTA 3D 語義分割、3D 目標(biāo)檢測和 3D 實(shí)例分割的訓(xùn)練和評估 pipeline,并支持分布式訓(xùn)練。該庫還支持 3D 物體形狀預(yù)測、點(diǎn)云配準(zhǔn)和點(diǎn)云加密等潛在應(yīng)用。

          此外,TF 3D 提供了用于訓(xùn)練和評估標(biāo)準(zhǔn) 3D 場景理解數(shù)據(jù)集的統(tǒng)一數(shù)據(jù)集規(guī)劃和配置,目前支持 Waymo Open、ScanNet 和 Rio 三個(gè)數(shù)據(jù)集。不過,用戶可以自由地將 NuScenes 和 Kitti 等其他流行數(shù)據(jù)集轉(zhuǎn)化為類似格式,并在預(yù)先存在或自定義創(chuàng)建的 pipeline 中使用它們。最后,用戶可以將 TF 3D 用于多種 3D 深度學(xué)習(xí)研究和應(yīng)用,比如快速原型設(shè)計(jì)以及嘗試新思路來部署實(shí)時(shí)推理系統(tǒng)。

          下圖(左)為 TF 3D 庫中 3D 目標(biāo)檢測模型在 Waymo Open 數(shù)據(jù)集幀上的輸出示例;下圖(右)為 TF 3D 庫中 3D 實(shí)例分割模型在 ScanNet 數(shù)據(jù)集場景上的輸出示例。


          3D 稀疏卷積網(wǎng)絡(luò)

          谷歌詳細(xì)介紹了 TF 3D 庫中提供的高效和可配置稀疏卷積骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)是在各種 3D 場景理解任務(wù)上取得 SOTA 結(jié)果的關(guān)鍵。

          在 TF 3D 庫中,谷歌使用子流形稀疏卷積和池化操作,這兩者被設(shè)計(jì)用于更高效地處理 3D 稀疏數(shù)據(jù)。稀疏卷積模型是大多數(shù)戶外自動(dòng)駕駛(如 Waymo 和 NuScenes)和室內(nèi)基準(zhǔn)(如 ScanNet)中使用的 SOTA 方法的核心。

          谷歌還使用各種 CUDA 技術(shù)來加速計(jì)算(如哈希算法、共享內(nèi)存中分割 / 緩存濾波器以及位操作)。在 Waymo Open 數(shù)據(jù)集上的實(shí)驗(yàn)表明,這種實(shí)現(xiàn)的速度約是利用預(yù)先存在 TensorFlow 操作的實(shí)現(xiàn)的 20 倍。

          TF 3D 庫中使用 3D 子流形稀疏 U-Net 架構(gòu)來提取每個(gè)體素(voxel)的特征。通過令網(wǎng)絡(luò)提取稀疏和細(xì)微特征并結(jié)合它們以做出預(yù)測,U-Net 架構(gòu)已被證實(shí)非常有效。在結(jié)構(gòu)上,U-Net 網(wǎng)絡(luò)包含三個(gè)模塊:編碼器、瓶頸層和解碼器,它們均是由大量具有潛在池化或非池化操作的稀疏卷積塊組成的。

          下圖為 3D 稀疏體素 U-Net 架構(gòu):


          稀疏卷積網(wǎng)絡(luò)是 TF 3D 中所提供 3D 場景理解 pipeline 的骨干。并且,3D 語義分割、3D 實(shí)例分割和 3D 目標(biāo)檢測模型使用稀疏卷積網(wǎng)絡(luò)來提取稀疏體素的特征,然后添加一個(gè)或多個(gè)額外的預(yù)測頭(head)來推理感興趣的任務(wù)。用戶可以通過改變編碼器或解碼器層數(shù)和每個(gè)層的卷積數(shù),以及調(diào)整卷積濾波器大小來配置 U-Net 網(wǎng)絡(luò),從而探索不同骨干網(wǎng)絡(luò)配置下各種速度或準(zhǔn)確率的權(quán)衡。

          TF 3D 支持的三個(gè) pipeline

          目前,TF 3D 支持三個(gè) pipeline,分別是 3D 語義分割、3D 實(shí)例分割和 3D 目標(biāo)檢測。

          3D 語義分割

          3D 語義分割模型僅有一個(gè)用于預(yù)測每體素(per-voxel )語義分?jǐn)?shù)的輸出頭,這些語義被映射回點(diǎn)以預(yù)測每點(diǎn)的語義標(biāo)簽。

          下圖為 ScanNet 數(shù)據(jù)集中室內(nèi)場景的 3D 語義分割結(jié)果:


          3D 實(shí)例分割

          除了預(yù)測語義之外,3D 實(shí)例分割的另一目的是將屬于同一物體的體素集中分組在一起。TF 3D 中使用的 3D 實(shí)例分割算法基于谷歌之前基于深度度量學(xué)習(xí)的 2D 圖像分割。模型預(yù)測每體素的實(shí)例嵌入向量和每體素的語義分?jǐn)?shù)。實(shí)例嵌入向量將這些體素嵌入至一個(gè)嵌入空間,在此空間中,屬于同一物體實(shí)例的體素緊密靠攏,而屬于不同物體的體素彼此遠(yuǎn)離。在這種情況下,輸入的是點(diǎn)云而不是圖像,并且使用了 3D 稀疏網(wǎng)絡(luò)而不是 2D 圖像網(wǎng)絡(luò)。在推理時(shí),貪婪算法每次選擇一個(gè)實(shí)例種子,并利用體素嵌入之間的距離將它們分組為片段。

          3D 目標(biāo)檢測

          3D 目標(biāo)檢測模型預(yù)測每體素大小、中心、旋轉(zhuǎn)矩陣和目標(biāo)語義分?jǐn)?shù)。在推理時(shí)使用 box proposal 機(jī)制,將成千上萬個(gè)每體素 box 預(yù)測縮減為數(shù)個(gè)準(zhǔn)確的 box 建議;在訓(xùn)練時(shí)將 box 預(yù)測和分類損失應(yīng)用于每體素預(yù)測。

          谷歌在預(yù)測和真值 box 角(box corner)之間的距離上應(yīng)用到了 Huber 損失。由于 Huer 函數(shù)根據(jù) box 大小、中心和旋轉(zhuǎn)矩陣來估計(jì) box 角并且它是可微的,因此該函數(shù)將自動(dòng)傳回這些預(yù)測的目標(biāo)特性。此外,谷歌使用了一個(gè)動(dòng)態(tài)的 box 分類損失,它將與真值強(qiáng)烈重疊的 box 分類為正(positive),將與真值不重疊的 box 分類為負(fù)(negative)。

          下圖為 ScanNet 數(shù)據(jù)集上的 3D 目標(biāo)檢測結(jié)果:


          參考鏈接:https://ai.googleblog.com/2021/02/3d-scene-understanding-with-tensorflow.html



          - EOF - 


          更多優(yōu)秀開源項(xiàng)目(點(diǎn)擊下方圖片可跳轉(zhuǎn))





          開源前哨

          日常分享熱門、有趣和實(shí)用的開源項(xiàng)目。參與維護(hù)10萬+star 的開源技術(shù)資源庫,包括:Python, Java, C/C++, Go, JS, CSS, Node.js, PHP, .NET 等

          關(guān)注后獲取

          回復(fù) 資源 獲取 10萬+ star 開源資源



          分享、點(diǎn)贊和在看

          支持我們分享更多優(yōu)秀開源項(xiàng)目,謝謝!

          瀏覽 42
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲视频在线a | 亚洲字幕成人中文在线观看 | 日韩在线色 | 日韩无码av中文字幕 | 在线毛片网站 |