<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          首個(gè)基于Transformer的目標(biāo)檢測模型上線,大目標(biāo)檢測超越Faster R-C...

          共 1539字,需瀏覽 4分鐘

           ·

          2020-05-29 23:20







          77b13918d9821c7218ecd39289b996b1.webp



          ??新智元報(bào)道??

          編輯:元子

          【新智元導(dǎo)讀】Facebook AI Research的六名成員研究了近期非常流行的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),創(chuàng)建了一個(gè)端到端的目標(biāo)檢測AI。研究員聲稱這種方法簡化了目標(biāo)檢測模型的創(chuàng)建,并減少了對手工組件的需求。
          Facebook AI Research的六名成員研究了近期非常流行的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),創(chuàng)建了一個(gè)端到端的目標(biāo)檢測AI。研究員聲稱這種方法簡化了目標(biāo)檢測模型的創(chuàng)建,并減少了對手工組件的需求。
          該模型被命名為 Detection Transformer(DETR),可以一次性識別圖像中的全部物體。

          重構(gòu)目標(biāo)檢測任務(wù)

          DETR將目標(biāo)檢測任務(wù)視為一個(gè)圖像到集的問題。給定一個(gè)圖像,模型必須預(yù)測出一個(gè)無序的集合(或列表),每個(gè)對象都由其類別表示,并在每個(gè)對象的周圍有一個(gè)緊密的邊界框。cacf79dbd3f7f38312d480a2fb4e4ace.webp這種表達(dá)方式特別適合于Transformer。研究人員將一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)與一個(gè)Transformer編碼器-解碼器架構(gòu)(Transformer encer-decoder)進(jìn)行連鎖,該架構(gòu)從圖像中提取局部信息,然后給出預(yù)測。傳統(tǒng)的計(jì)算機(jī)視覺模型通常使用一個(gè)復(fù)雜的、半手動制作的流水線,依靠自定義層來對圖像中的對象進(jìn)行定位,然后提取特征。而DETR用更簡單的神經(jīng)網(wǎng)絡(luò)取代了這一點(diǎn),它提供了一個(gè)真正的端到端的深度學(xué)習(xí)解決方案。0557e66debf875c94e57e6f8b5a3ccf3.webpTransformer的自關(guān)注機(jī)制允許DETR對圖像進(jìn)行全局推理,也可以對預(yù)測的具體對象進(jìn)行全局推理。例如,該模型可能會查看圖像的其他區(qū)域,從而對邊界框中的對象做出判斷。另外,它還可以根據(jù)圖像中的對象之間的關(guān)系或相關(guān)性進(jìn)行預(yù)測。例如,如果DETR預(yù)測圖像中包含一個(gè)站在沙灘上的人,那么它可以預(yù)測出部分遮擋的物體更有可能是沖浪板而非滑板。相比之下,其他檢測模型則是孤立地預(yù)測每個(gè)物體。

          向NLP和計(jì)算機(jī)視覺任務(wù)的統(tǒng)一方法推進(jìn)

          FAIR稱,DETR是第一個(gè)成功地將Transformer架構(gòu),作為檢測管道中的核心構(gòu)件集成的目標(biāo)檢測框架。作者們還說,Transformer可以像近年來的自然語言處理一樣,給計(jì)算機(jī)視覺帶來革命性的變革,或者說是彌補(bǔ)了NLP和計(jì)算機(jī)視覺之間的差距。他們聲稱:「新的模型在概念上很簡單,不需要專門的庫,與許多其他現(xiàn)代檢測器不同?!筎ransformer網(wǎng)絡(luò)架構(gòu)由谷歌的研究人員在2017年創(chuàng)建,最初是作為改進(jìn)機(jī)器翻譯的一種方式,但現(xiàn)在已經(jīng)成長為機(jī)器學(xué)習(xí)的基石,用于制作一些最流行的預(yù)訓(xùn)練SOTA語言模型,如谷歌的BERT、Facebook的RoBERTa等。谷歌AI首席執(zhí)行官Jeff Dean及其他AI大佬們都認(rèn)為,基于Transformer的語言模型是2019年的一大趨勢,而且會在2020年持續(xù)保持這個(gè)趨勢。Transformer使用注意力函數(shù)代替遞歸神經(jīng)網(wǎng)絡(luò)來預(yù)測下一個(gè)序列中會出現(xiàn)什么。當(dāng)應(yīng)用于物體檢測時(shí),Transformer能夠省去構(gòu)建模型的步驟,比如需要創(chuàng)建空間錨和自定義層等。根據(jù)arXiv上論文結(jié)果顯示,DETR所取得的結(jié)果可以與Faster R-CNN相媲美。ae6016c479ae830a4a482c095d88892d.webpFaster R-CNN主要由微軟研究公司創(chuàng)建的目標(biāo)檢測模型,自2015年推出以來,該模型已經(jīng)獲得了近1萬次引用。DETR是Facebook最新的AI計(jì)劃,它期待通過語言模型解決方案來解決計(jì)算機(jī)視覺的挑戰(zhàn),尤其擅長對材料分類,研究者推測,解碼器注意力機(jī)制具有的全局推理特性是產(chǎn)生這一結(jié)果的關(guān)鍵因素。本月早些時(shí)候,F(xiàn)acebook推出了Hateful Meme數(shù)據(jù)集和挑戰(zhàn),倡導(dǎo)創(chuàng)建多模態(tài)人工智能,以便能夠識別備忘錄中的圖片和附帶文字何時(shí)違反Facebook政策。
          瀏覽 33
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日日模日日 | 啪啪免费观看 | 日韩AV二区 | 亚洲秘 无码一区二区三区电影 | 人人插人人射人人摸 |