<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          大模型時(shí)代目標(biāo)檢測任務(wù)會走向何方?

          共 4030字,需瀏覽 9分鐘

           ·

          2023-11-07 12:45

          點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號

          重磅干貨,第一時(shí)間送達(dá)

          者丨深度眸@知乎(已授權(quán))
          來源丨h(huán)ttps://zhuanlan.zhihu.com/p/663703934
          編輯丨極市平臺

          導(dǎo)讀

           

          細(xì)數(shù)從常見的目標(biāo)檢測到現(xiàn)在 MLLM 盛行的時(shí)代,和 Object Detection 的任務(wù)以及近期涌現(xiàn)的新任務(wù)。

          你或許很好奇,現(xiàn)在目標(biāo)檢測都在干啥?在大模型時(shí)代有啥花樣可以做的?作為研究者還有啥可以挖的嗎?作為從業(yè)者有沒有好的東西可以借鑒?

          如果你有這些疑問,那么這篇文章很適合你。

          其實(shí)這篇文章是想說明下從我們常見的目標(biāo)檢測到現(xiàn)在 MLLM 盛行的時(shí)代,和 Object Detection 任務(wù)有哪些?目前又涌現(xiàn)了哪些新的任務(wù)?是否有很大的實(shí)際價(jià)值?希望能夠打開下大家思路!!!

          1 Object Detection

          經(jīng)典目標(biāo)檢測大家應(yīng)該非常熟悉了,一般指的就是閉集固定類別的檢測。

          2 Open Set/Open World/OOD

          這個(gè)任務(wù)是指在實(shí)際應(yīng)用上可以檢測任何前景物體,但是有些不需要預(yù)測類別,只要檢測出框就行。在很多場合也有應(yīng)用場景,有點(diǎn)像類無關(guān)的增量訓(xùn)練。

          unknown 就是模型預(yù)測的不知道類別的檢測結(jié)果。

          3 Open Vocabulary

          也是開放集任務(wù),相比于 open set,需要知道不在訓(xùn)練集類別中的新預(yù)測物體類別。這類模型通常都需要接入文本作為一個(gè)模態(tài)輸入,因?yàn)殚_放詞匯目標(biāo)檢測的定義就是給定任意詞匯都可以檢測出來。

          訓(xùn)練時(shí)候通常是要確保訓(xùn)練集和測試集的類別不能重復(fù),否則就是信息泄露了,但是訓(xùn)練和測試集圖片是否重復(fù)其實(shí)也沒有強(qiáng)制限制。

          可以看出 OVD 任務(wù)更加貼合實(shí)際應(yīng)用,文本的描述不會有很大限制,同一個(gè)物體你可以采用多種詞匯描述都可以檢測出來。OVD 任務(wù)是一個(gè)比較實(shí)用的,但是目前還沒有出現(xiàn)開源的超級強(qiáng)的 OVD 算法(這個(gè)超強(qiáng)是指的對比 SAM 來說,極強(qiáng)的 open 檢測能力)

          4 Phrase Grounding

          這個(gè)任務(wù)也叫做 phrase localization。給定名詞短語,輸出對應(yīng)的單個(gè)或多個(gè)物體檢測框。如果是輸入一句話,那么就是定位這句話中包括的所有名詞短語。在 GLIP 得到了深入的研究。

          從上圖可以看出,Phrase Grounding 任務(wù)是包括了 OVD 任務(wù)的。常見的評估數(shù)據(jù)集是 Flickr30k Entities

          5 Referring Expression Comprehension

          簡稱 REC,有時(shí)候也稱為 visual grounding。給定圖片和一句話,輸出對應(yīng)的物體坐標(biāo),通常就是單個(gè)檢測框。

          常用的是 RefCOCO/RefCOCO+/RefCOCOg 三個(gè)數(shù)據(jù)集。是相對比較簡單的數(shù)據(jù)集。這個(gè)任務(wù)側(cè)重理解。

          6 Description Object Detection

          描述性目標(biāo)檢測也可以稱為廣義 Referring Expression Comprehension。為何叫做廣義,這就要說道目前常用的

          Referring Expression Comprehension 存在的問題了:

          1. REC 數(shù)據(jù)集通常都是指代一個(gè)物體,不太符合實(shí)際
          2. REC 數(shù)據(jù)集沒有負(fù)樣本,也就是每句話一定對應(yīng)了圖片中的物體,這樣訓(xùn)練的模型會存在很大的幻覺
          3. REC 數(shù)據(jù)集通常都是正向描述,例如上圖的一條在圖片左邊的狗,但是沒有反向描述,例如一條沒有被繩子牽引著在外面的狗

          基于此,Described Object Detection 論文提出了這個(gè)新的數(shù)據(jù)集,命名為 DOD。類似還有 gRefCOCO

          其實(shí)還有一個(gè)更細(xì)致的任務(wù)叫做 :Open-Vocabulary Visual Grounding 和 Open-Vocabulary Phrase Grounding,來自論文 OV-VG

          可以看出這個(gè)任務(wù)重點(diǎn)是想特意區(qū)分類別泄露問題,但是由于大數(shù)據(jù)集訓(xùn)練時(shí)代,這個(gè)情況是無法避免的。

          7 Caption with Grounding

          這個(gè)任務(wù)的含義是:給定圖片,要求模型輸出圖片描述,同時(shí)對于其中的短語都要給出對應(yīng)的 bbox

          有點(diǎn)像 Phrase Grounding 的反向過程。這個(gè)任務(wù)可以方便將輸出的名稱和 bbox 聯(lián)系起來,方便后續(xù)任務(wù)的進(jìn)行。

          8 Reasoning Intention-Oriented Object Detection

          意圖導(dǎo)向的目標(biāo)檢測,和之前的 DetGPT 提出的推理式檢測,我感覺非常類似。

          DetGPT 中的推理式檢測含義是:給定文本描述,模型要能夠進(jìn)行推理,得到用戶真實(shí)意圖。

          例如 我想喝冷飲,LLM 會自動進(jìn)行推理解析輸出 冰箱 這個(gè)單詞,從而可以通過 Grounding 目標(biāo)檢測算法把冰箱檢測出來。模型具備推理功能。

          而 RIO 我覺得也是一樣,來自論文 RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments,想做的事情也是一樣

          9 基于區(qū)域輸入的理解和 Grounding

          這個(gè)是一個(gè)非常寬泛的任務(wù),表示不僅可以輸入圖文模態(tài),還可以輸入其他任意你能想到的模態(tài),然后進(jìn)行理解或者定位相關(guān)任務(wù)。

          最經(jīng)典的任務(wù)是 Referring expression generation:給定圖片和單個(gè)區(qū)域,對該區(qū)域進(jìn)行描述。常用的評估數(shù)據(jù)集是 RefCOCOg

          現(xiàn)在也有很多新的做法,典型的如 Shikra 里面提到的 Referential dialogue,包括 REC,REG,PointQA,Image Caption 以及 VQA 5 個(gè)任務(wù)

          Apple 也提出了新的可交互的設(shè)計(jì)

          其實(shí)文本、bbox 和圖片配合,還可以實(shí)現(xiàn)很多任務(wù),但是由于都是比較特殊或者不是很主流,這里就沒有寫了。

          10 結(jié)尾

          可能還漏掉了一些,歡迎大家留言評論。后續(xù)可以講講這些任務(wù)應(yīng)該如何解決?每個(gè)任務(wù)到底是咋評測的,通常的做法是咋樣的。

          現(xiàn)在都是大數(shù)據(jù)訓(xùn)練時(shí)代,評測雖然非常有用,但是很難避免數(shù)據(jù)泄露問題,如果作者不開源,你根本無法知道到底是模型性能還是數(shù)據(jù)泄露,這個(gè)一個(gè)值得思考的問題...,而這個(gè)問題也很難解,因?yàn)樽髡卟婚_源,你也沒有精力去做復(fù)現(xiàn)...

          由于我們也沒有做過工業(yè),不知道大家認(rèn)為哪個(gè)任務(wù)才是大家真正需要的?或者說這些任務(wù)還不夠還可以擴(kuò)展以滿足實(shí)際需求,歡迎留言和交流!!!

          聲明:部分內(nèi)容來源于網(wǎng)絡(luò),僅供讀者學(xué)習(xí)、交流之目的。文章版權(quán)歸原作者所有。如有不妥,請聯(lián)系刪除。

          —THE END—

          瀏覽 135
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费特黄夫妻录像影片 | 丁香五月激情婷婷 | 澳门黄片 | 怡红院AV成人网 | 日韩高清无码毛片 |