<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          斯坦福、Meta:用知識(shí)蒸餾給數(shù)據(jù)集瘦身,剪掉ImageNet 20%數(shù)據(jù)量,模型性能不下降!

          共 2040字,需瀏覽 5分鐘

           ·

          2022-07-08 18:13

          明敏 發(fā)自 凹非寺
          轉(zhuǎn)載自:量子位(QbitAI)

          這兩天,推特上一個(gè)任務(wù)懸賞火得一塌糊涂。

          一家AI公司提供25萬美金(折合人民幣約167萬元),懸賞什么任務(wù)能讓模型越大、性能反而越差。

          評(píng)論區(qū)里已經(jīng)討論得熱火朝天了。

          不過這事兒倒也不是單純整活,而是為了進(jìn)一步探索大模型。

          畢竟,這兩年大家越發(fā)意識(shí)到,AI模型不能單純比“大”。

          一方面,隨著模型的規(guī)模越來越大,訓(xùn)練付出的成本開始呈現(xiàn)指數(shù)型增長(zhǎng);

          另一方面,模型性能的提升也已經(jīng)逐漸到達(dá)瓶頸期,哪怕想要讓誤差再下降1%,都需要更多的數(shù)據(jù)集增量和計(jì)算增量。

          比如對(duì)于Transformer而言,交叉熵?fù)p失想要從3.4奈特降低到2.8奈特,就需要原本10倍量的訓(xùn)練數(shù)據(jù)。

          針對(duì)這些問題,AI學(xué)者們已經(jīng)在從各種方向上找解決路子了。

          Meta斯坦福的學(xué)者們,最近想到了從數(shù)據(jù)集上切入。

          他們提出,對(duì)數(shù)據(jù)集進(jìn)行知識(shí)蒸餾,使得數(shù)據(jù)集規(guī)模雖小,但還能保持模型性能不下降。

          實(shí)驗(yàn)驗(yàn)證,在剪掉ImageNet 20%的數(shù)據(jù)量后,ResNets表現(xiàn)和使用原本數(shù)據(jù)時(shí)的正確率相差不大。

          研究人員表示,這也為AGI實(shí)現(xiàn)找出了一條新路子。

          超大數(shù)據(jù)集的效率并不高

          論文:https://arxiv.org/abs/2206.14486

          本文提出的辦法,其實(shí)就是對(duì)原本的數(shù)據(jù)集進(jìn)行優(yōu)化精簡(jiǎn)。

          研究人員表示,過去許多方法都表明,許多訓(xùn)練示例是高度冗余的,理論上可以把數(shù)據(jù)集“剪”得更小。

          而且最近也有研究提出了一些指標(biāo),可以根據(jù)訓(xùn)練示例的難度或重要性對(duì)它們進(jìn)行排序,并通過保留其中一些難度高的示例,就能完成數(shù)據(jù)修剪。

          基于前人的發(fā)現(xiàn)和研究,此次學(xué)者們進(jìn)一步提出了一些可具體操作的方法。

          首先,他們提出了一種數(shù)據(jù)分析方法,可以讓模型只學(xué)習(xí)部分?jǐn)?shù)據(jù),就能實(shí)現(xiàn)同等的性能。

          通過數(shù)據(jù)分析,研究人員初步得出結(jié)論:

          一個(gè)數(shù)據(jù)集怎樣修剪效果最好?這和它本身的規(guī)模有關(guān)。

          初始數(shù)據(jù)量越多,越應(yīng)該保留難度高的示例;

          初始數(shù)據(jù)量越少,則應(yīng)該保留難度低的示例。

          而在保留困難示例進(jìn)行數(shù)據(jù)修剪后,模型和數(shù)據(jù)規(guī)模的對(duì)應(yīng)關(guān)系,可以打破冪律分布。

          常被提起的二八定律就是基于冪律提出的。

          即20%的數(shù)據(jù)會(huì)影響80%的結(jié)果。

          同時(shí)在此情況下,還能找到一個(gè)處于帕累托最優(yōu)的下的極值。

          這里所說的帕累托最優(yōu)是指資源分配的一種理想狀態(tài)。

          它假設(shè)固定有一群人和可分配的資源,從一種分配狀態(tài)調(diào)整到另一種分配狀態(tài),在沒有使任何一個(gè)人變差的前提下,至少使得一個(gè)人變得更好。

          在本文中,調(diào)整分配狀態(tài)即可理解為,修剪多少比例的數(shù)據(jù)集。

          然后,研究人員進(jìn)行了實(shí)驗(yàn)來驗(yàn)證這一理論。

          從實(shí)驗(yàn)結(jié)果來看,當(dāng)數(shù)據(jù)集越大,修剪后的效果就越明顯。

          在SVHN、CIFAR-10、ImageNet幾個(gè)數(shù)據(jù)集上,ResNet的錯(cuò)誤率總體和數(shù)據(jù)集修剪規(guī)模呈反比。

          在ImageNet上可以看到,數(shù)據(jù)集規(guī)模保留80%的情況下,和原本數(shù)據(jù)集訓(xùn)練下的錯(cuò)誤率基本相同。

          這一曲線也逼近了帕累托最優(yōu)。

          接下來,研究人員聚焦在ImageNet上,對(duì)10種不同情況進(jìn)行了大規(guī)?;鶞?zhǔn)測(cè)試。

          結(jié)果表明,隨機(jī)修剪以及一些修剪指標(biāo),在ImageNet上的表現(xiàn)并不夠好。

          所以更進(jìn)一步,研究人員還提出了一種自監(jiān)督方法來修剪數(shù)據(jù)。

          也就是知識(shí)蒸餾(教師學(xué)生模型),這是模型壓縮的一種常見方法。

          結(jié)果顯示,在自監(jiān)督方法下,它在找數(shù)據(jù)集中簡(jiǎn)單/困難示例上的表現(xiàn)都還不錯(cuò)。

          使用自監(jiān)督方法修剪數(shù)據(jù)后,正確率明顯提高(圖C中淺藍(lán)色線)。

          還存在一些問題

          不過在論文中,研究人員也提到,雖然通過如上方法可以在不犧牲性能的情況下修剪數(shù)據(jù)集,但是有些問題仍舊值得關(guān)注。

          比如數(shù)據(jù)集縮小后,想要訓(xùn)練出同等性能的模型,需要的時(shí)間可能會(huì)更長(zhǎng)。

          因此,在進(jìn)行數(shù)據(jù)集修剪時(shí),應(yīng)該平衡縮減規(guī)模和訓(xùn)練增長(zhǎng)時(shí)間兩方面因素。

          與此同時(shí),對(duì)數(shù)據(jù)集進(jìn)行修剪,勢(shì)必會(huì)喪失一些群體的樣本,由此也可能造成模型在某一個(gè)方面出現(xiàn)弊端。

          在這方面會(huì)容易引起道德倫理方面的問題。

          研究團(tuán)隊(duì)

          本文作者之一Surya Ganguli,是量子神經(jīng)網(wǎng)絡(luò)科學(xué)家。

          他現(xiàn)在是斯坦福大學(xué)應(yīng)用物理學(xué)教授、谷歌客座研究教授。

          此前,他在斯坦福讀本科期間,同時(shí)學(xué)習(xí)了計(jì)算機(jī)科學(xué)、數(shù)學(xué)和物理三個(gè)專業(yè),之后拿下了電氣工程與計(jì)算機(jī)科學(xué)碩士學(xué)位。



          猜您喜歡:

           戳我,查看GAN的系列專輯~!
          一頓午飯外賣,成為CV視覺前沿弄潮兒!
          CVPR 2022 | 25+方向、最新50篇GAN論文
           ICCV 2021 | 35個(gè)主題GAN論文匯總
          超110篇!CVPR 2021最全GAN論文梳理
          超100篇!CVPR 2020最全GAN論文梳理


          拆解組新的GAN:解耦表征MixNMatch

          StarGAN第2版:多域多樣性圖像生成


          附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享


          《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》

          《零樣本圖像分類綜述: 十年進(jìn)展》

          《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


          瀏覽 69
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大屌一区二区 | 91AV免费在线观看 | 亚洲成人做爱 | 亚洲色无码A片中文字幕 | 日本中文久草视频在线 |