<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          精度最高降幅60%!SOTA只是假象?CVPR2024 Highlight為你揭示CLIP和LLaVA-Next等模型“騙局”

          共 3253字,需瀏覽 7分鐘

           ·

          2024-04-18 22:14

          作者丨派派星
          來(lái)源丨CVHub
          編輯丨極市平臺(tái)

          導(dǎo)讀

           

          這篇論文提出了利用diffusion model作為data source來(lái)測(cè)評(píng)模型魯棒性。提出的ImageNet-D數(shù)據(jù)集有效地降低state-of-art模型的測(cè)試準(zhǔn)確率,降低幅度最高達(dá)60%,其中便包括了 CLIP,MiniGPT-4和LLaVa-NeXT等主流模型。

          標(biāo)題:《ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object》
          論文https://arxiv.org/pdf/2403.18775.pdf
          主頁(yè)https://chenshuang-zhang.github.io/imagenet_d/
          源碼https://github.com/chenshuang-zhang/imagenet_d
          數(shù)據(jù)https://drive.google.com/file/d/11zTXmg5yNjZwi8bwc541M1h5tPAVGeQc/view

          導(dǎo)讀

          本文作為被CVPR 2024接收的論文,幸運(yùn)地成為324篇Highlight之一。

          這篇論文提出了利用diffusion model作為data source來(lái)測(cè)評(píng)模型魯棒性。提出的ImageNet-D數(shù)據(jù)集有效地降低state-of-art模型的測(cè)試準(zhǔn)確率,降低幅度最高達(dá)60%,其中便包括了 CLIP,MiniGPT-4和LLaVa-NeXT等主流模型。

          ImageNet-D從新的角度揭露了當(dāng)前模型的failure case,啟發(fā)未來(lái)模型升級(jí)。同時(shí),ImageNet-D對(duì)于未來(lái)如何利用diffusion model生成更多的測(cè)試基準(zhǔn)提供了參考。

          本文第一作者Chenshuang Zhang和通訊作者Chengzhi Mao為清華大學(xué)校友,歡迎訪(fǎng)問(wèn)論文github。如果本工作對(duì)您有所幫助或者啟發(fā),請(qǐng)為該github倉(cāng)庫(kù)點(diǎn)亮一顆星,歡迎引用和交流。

          背景與動(dòng)機(jī)

          近年來(lái),神經(jīng)網(wǎng)絡(luò)在從圖像分類(lèi)到視覺(jué)問(wèn)題回答等任務(wù)中取得了顯著的成就。隨著神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,如何評(píng)估神經(jīng)網(wǎng)絡(luò)的魯棒性出于安全原因變得越來(lái)越重要。

          為了評(píng)估神經(jīng)網(wǎng)絡(luò)的魯棒性,ObjectNet收集了由人工拍攝的真實(shí)世界物體圖像,這一過(guò)程既耗時(shí)又費(fèi)力。為了提高數(shù)據(jù)收集效率,過(guò)于的研究提出使用合成圖像作為測(cè)試圖像。例如:

          • ImageNet-C引入了一系列l(wèi)ow level的corruption,如高斯噪聲和模糊。
          • ImageNet-9使用簡(jiǎn)單的剪切和粘貼技術(shù)創(chuàng)建關(guān)于物體背景的魯棒性基準(zhǔn),但這些圖像并不現(xiàn)實(shí)。
          • Stylized-ImageNet通過(guò)改變ImageNet圖像的紋理生成新圖像,卻難以控制其他的因素,如圖像背景等。

          為什么說(shuō)ImageNet-D很關(guān)鍵?

          簡(jiǎn)單來(lái)說(shuō),ImageNet-D充分利用 diffusion model 生成高質(zhì)量的圖像作為數(shù)據(jù)來(lái)源,從中挖掘困難樣本組成最終數(shù)據(jù)集。

          實(shí)驗(yàn)結(jié)果表明,ImageNet-D 有效降低了大量模型的測(cè)試準(zhǔn)確率,包括最新的大模型 CLIP 和 LLaVa-NeXT等。

          ImageNet-D從一個(gè)嶄新的角度揭露了當(dāng)前大模型的錯(cuò)誤,有利于啟發(fā)模型的進(jìn)一步迭代。

          同時(shí),整體數(shù)據(jù)集構(gòu)建流程高效而靈活,可快速擴(kuò)展到新的測(cè)試任務(wù),為未來(lái)不同任務(wù)和場(chǎng)景構(gòu)建測(cè)試基準(zhǔn)提供了參考。

          數(shù)據(jù)集圖像示例

          ImageNet-D數(shù)據(jù)集包含來(lái)自113個(gè)數(shù)據(jù)類(lèi)別的4835張圖像,有著不同的背景(background)、紋理(texture)和材料(material)組成. 和以往的合成數(shù)據(jù)集相比,ImageNet-D圖像質(zhì)量更高,且生成更為靈活可控。更多圖像示例參見(jiàn)論文及github。

          數(shù)據(jù)集構(gòu)建框架

          如上所述,ImageNet-D 基于 Stable Diffusion 模型生成。

          首先,為了獲得更加多樣性的樣本,論文獲取了大量圖像類(lèi)別和屬性(如背景)組合。

          隨后,本文利用了已知模型進(jìn)行樣本篩選,即若一張圖片使得全部已知模型分類(lèi)錯(cuò)誤,那么將此圖片加入最終測(cè)試集。

          最后,通過(guò)引入了人工校驗(yàn)去除質(zhì)量不佳的樣本,并采用Amazon Mechanical Turk進(jìn)行最終質(zhì)量校驗(yàn)。

          實(shí)驗(yàn)

          首先,可以看到,和ImageNet-D相比,其有效降低了各個(gè)模型的test accuracy,降低幅度最高達(dá)60%!

          其次,通過(guò)將ImageNet-D圖像輸入到大模型MiniGPT-4和LLaVa-1.5中,可以看到,它們對(duì)于輸入圖像中主要物體理解錯(cuò)誤,均輸出了錯(cuò)誤答案:

          以上實(shí)驗(yàn)結(jié)果表明,ImageNet-D對(duì)于當(dāng)前視覺(jué)模型和VQA模型來(lái)說(shuō)很有難度,其從一個(gè)新的角度展示了模型的failure cases,有利于啟發(fā)未來(lái)的模型升級(jí)。

          最后,一起看下更多結(jié)果和討論。

          模型準(zhǔn)確率提高。本文從多個(gè)角度分析了如何提高ImageNet-D上的測(cè)試準(zhǔn)確率。例如,我們發(fā)現(xiàn)改變模型結(jié)構(gòu),如ConvNext,并不能全面提高ImageNet-D準(zhǔn)確率。增加模型訓(xùn)練數(shù)據(jù)對(duì)準(zhǔn)確率提高有所幫助。更多實(shí)驗(yàn)和分析見(jiàn)論文。

          最近鄰搜索。除了圖像分類(lèi)任務(wù)外,ImageNet-D同時(shí)揭露了模型在最近鄰搜索(nearest neighbor search)上的failure case。

          將ImageNet-D中圖像作為query圖像,基于CLIP模型在ImageNet中搜索最相似的圖像,返回結(jié)果如下圖所示。

          有趣的是,CLIP并為返回于query圖像物體類(lèi)別一致的圖像,返回圖像與query圖像背景相似,或者物體類(lèi)別與query圖像背景有關(guān)。

          利用生成圖片作為訓(xùn)練數(shù)據(jù)。在數(shù)據(jù)集生成過(guò)程中,我們選取已知模型的共同錯(cuò)誤(shared failures)作為最終測(cè)試集。

          為了測(cè)試生成圖片對(duì)于模型訓(xùn)練的作用,我們將已知模型分類(lèi)正確的圖片加入訓(xùn)練集進(jìn)行模型訓(xùn)練。

          如下表所示,有趣的是,利用生成圖片訓(xùn)練模型不僅提升了ImageNet-D的分類(lèi)準(zhǔn)確率,對(duì)于自然圖像組成的ObjectNet數(shù)據(jù)集分類(lèi)準(zhǔn)確率有1.34%提升。更多實(shí)驗(yàn)細(xì)節(jié)參見(jiàn)論文。

          結(jié)論

          本文基于diffusion models,提出了一個(gè)新的測(cè)試數(shù)據(jù)集ImageNet-D。通過(guò)和已有測(cè)試集相比,ImageNet-D有著更高的圖像質(zhì)量,數(shù)據(jù)集構(gòu)建流程高效且靈活。

          實(shí)驗(yàn)結(jié)果表明,ImageNet-D數(shù)據(jù)集有效地降低state-of-art模型的測(cè)試準(zhǔn)確率,降低幅度最高達(dá)60%,包括CLIP,MiniGPT-4和LLaVa-NeXT等。

          ImageNet-D從新的角度揭露了當(dāng)前模型的failure case,啟發(fā)未來(lái)模型升級(jí)。同時(shí),ImageNet-D對(duì)于未來(lái)如何利用diffusion model生成更多的測(cè)試基準(zhǔn)提供了參考。

          瀏覽 164
          10點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          10點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大鸡吧插逼逼视频 | 婷婷性爱五月天 | 国产吧在线 | 黄色片三级片在线看网站 | 欧美视频色 |