<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【深度學(xué)習(xí)】何愷明和劉壯新作:消除數(shù)據(jù)集偏差的十年之戰(zhàn)

          共 2818字,需瀏覽 6分鐘

           ·

          2024-04-11 23:01

          者丨量子位       來(lái)源丨量子位      編輯丨極市平臺(tái)

          MIT新晉副教授何愷明,新作新鮮出爐:

          瞄準(zhǔn)一個(gè)橫亙?cè)贏I發(fā)展之路上十年之久的問題:數(shù)據(jù)集偏差。

          a8e7d76814b553228ac2b3fe7cde91b9.webp

          該研究為何愷明在Meta期間與劉壯合作完成,他們?cè)谡撐闹兄赋觯?/p>

          盡管過(guò)去十多年里業(yè)界為構(gòu)建更大、更多樣化、更全面、偏差更小的數(shù)據(jù)集做了很多努力,但現(xiàn)代神經(jīng)網(wǎng)絡(luò)似乎越來(lái)越善于”識(shí)破”并利用這些數(shù)據(jù)集中潛藏的偏差。

          這不禁讓人懷疑:我們?cè)谙龜?shù)據(jù)集偏差的戰(zhàn)斗中,真的取得了勝利嗎?

          數(shù)據(jù)集偏差之戰(zhàn),在2011年由知名學(xué)者Antonio Torralba和Alyosha Efros提出——

          Alyosha Efros正是Sora兩位一作博士小哥(Tim Brooks和William Peebles)的博士導(dǎo)師,而Antonio Torralba也在本科期間指導(dǎo)過(guò)Peebles。

          當(dāng)時(shí)他們發(fā)現(xiàn),機(jī)器學(xué)習(xí)模型很容易“過(guò)擬合”到特定的數(shù)據(jù)集上,導(dǎo)致在其他數(shù)據(jù)集上表現(xiàn)不佳。

          十多年過(guò)去了,盡管我們有了更大、更多樣化的數(shù)據(jù)集,如ImageNet、YFCC100M、CC12M等,但這個(gè)問題似乎并沒有得到根本解決。

          反而,隨著神經(jīng)網(wǎng)絡(luò)變得越來(lái)越強(qiáng)大,它們“挖掘”和利用數(shù)據(jù)集偏差的能力也越來(lái)越強(qiáng)了!

          為了分析這個(gè)問題,何愷明團(tuán)隊(duì)設(shè)計(jì)了一個(gè)虛構(gòu)的”數(shù)據(jù)集分類”任務(wù)。

          聽名字你可能就猜到了:給定一張圖像,模型需要判斷它來(lái)自哪個(gè)數(shù)據(jù)集。通過(guò)看模型在這個(gè)任務(wù)上的表現(xiàn),就可以了解它們捕捉數(shù)據(jù)集偏差的能力。

          2d117be998801a7b644ab153c620b708.webp

          現(xiàn)代AI輕松識(shí)破不同數(shù)據(jù)集

          在實(shí)驗(yàn)中團(tuán)隊(duì)發(fā)現(xiàn),各種現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu),如AlexNet、VGG、ResNet、ViT等,在數(shù)據(jù)集分類任務(wù)上表現(xiàn)出驚人的一致性:它們幾乎都能以超過(guò)80%的準(zhǔn)確率區(qū)分不同數(shù)據(jù)集的圖像!

          8ba9a141c2f1e7b3bc365b3eb722706a.webp

          更令人吃驚的是,這個(gè)發(fā)現(xiàn)在各種不同的條件下都非常穩(wěn)?。?/p>

          不管是不同的數(shù)據(jù)集組合、不同的模型架構(gòu)、不同的模型尺寸、不同的訓(xùn)練數(shù)據(jù)量,還是不同的數(shù)據(jù)增強(qiáng)方法,神經(jīng)網(wǎng)絡(luò)始終能輕松”一眼識(shí)破”圖像的數(shù)據(jù)集來(lái)源。

          那么,神經(jīng)網(wǎng)絡(luò)是如何做到這一點(diǎn)的呢?是靠單純的記憶,還是學(xué)到了一些更普適的規(guī)律?

          為了揭開謎底,團(tuán)隊(duì)做了一系列對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn),如果把不同的數(shù)據(jù)集隨機(jī)混在一起,神經(jīng)網(wǎng)絡(luò)就很難再區(qū)分它們了(準(zhǔn)確率下降到了33%)。這說(shuō)明,神經(jīng)網(wǎng)絡(luò)并不是在單純地記憶每一張圖像,而是真的學(xué)到了一些數(shù)據(jù)集特有的模式。

          dad61bd8c11ef9fbc0b2c369ba44d4d6.webp

          更有趣的是,即使在自監(jiān)督學(xué)習(xí)的設(shè)置下,神經(jīng)網(wǎng)絡(luò)也展現(xiàn)出了驚人的”數(shù)據(jù)集辨識(shí)力”。在這種設(shè)置下,模型在訓(xùn)練時(shí)并沒有用到任何數(shù)據(jù)集的標(biāo)簽信息,但當(dāng)在這些自監(jiān)督學(xué)習(xí)到的特征上訓(xùn)練一個(gè)簡(jiǎn)單的線性分類器時(shí),它依然能以超過(guò)70%的準(zhǔn)確率區(qū)分不同的數(shù)據(jù)集!

          通過(guò)這一系列的實(shí)驗(yàn),何愷明、劉壯等人的研究給我們敲響了警鐘:盡管這十年我們一直在努力構(gòu)建更大、更多樣化的數(shù)據(jù)集,但數(shù)據(jù)集偏差這個(gè)問題似乎并沒有得到根本解決。相反,現(xiàn)代神經(jīng)網(wǎng)絡(luò)越來(lái)越善于利用這些偏差來(lái)獲得高準(zhǔn)確率,但這可能并不代表它們真正學(xué)到了魯棒、普適的視覺概念。

          acfad7b549b8b6e6ed6266be102783e4.webp

          論文的最后,作者呼吁整個(gè)AI社區(qū)重新審視數(shù)據(jù)集偏差這個(gè)問題,并重新思考如何在算法和數(shù)據(jù)兩個(gè)層面上來(lái)應(yīng)對(duì)這一挑戰(zhàn)。

          CVPR最佳論文作者的通力合作

          本文是何愷明在Meta期間,與Meta研究科學(xué)家劉壯合作完成。

          現(xiàn)在,何愷明已經(jīng)正式在MIT上崗,擔(dān)任電氣工程與計(jì)算機(jī)科學(xué)系的助理教授。他的“開學(xué)第一課”開課即火爆,在youtube上已經(jīng)有2.9萬(wàn)的播放量。

          和何愷明一樣,劉壯本科畢業(yè)自清華,并且也是CVPR最佳論文獎(jiǎng)得主——他是CVPR2017最佳論文DenseNet的第一作者。

          2017年,劉壯從清華姚班畢業(yè),進(jìn)入加州大學(xué)伯克利分校攻讀博士學(xué)位,師從Trevor Darrell,是賈揚(yáng)清的同門師弟。

          博士畢業(yè)后,劉壯進(jìn)入Meta AI Research工作。在此之前,他已經(jīng)在Meta實(shí)習(xí)了一年多時(shí)間,期間和謝賽寧合作,發(fā)表了ConvNeXt。

          bed17469dfc20252e5c0ef5494410802.webp

          論文地址:
          https://arxiv.org/abs/2403.08632

          參考鏈接:
          https://twitter.com/liuzhuang1234/status/1768096508082008289


              
                    
                      
                        
                          
                                
                                      
                                            
                                              
                                                
                                                  
                                                        
                                                                      往期
                                                                      精彩
                                                                      回顧
                                                                      
                                                                      



          •                           

            交流群

          歡迎加入機(jī)器學(xué)習(xí)愛好者微信群一起和同行交流,目前有機(jī)器學(xué)習(xí)交流群、博士群、博士申報(bào)交流、CV、NLP等微信群,請(qǐng)掃描下面的微信號(hào)加群,備注:”昵稱-學(xué)校/公司-研究方向“,例如:”張小明-浙大-CV“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~( 也可以加入機(jī)器學(xué)習(xí)交流qq群772479961


          瀏覽 32
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  啪啪免费网站 | 国产精品日韩无码有码 | 国产一区在线观看视频 | 俺来也俺就去www色情网 | 麻豆豆成人版在线观看 |