<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ImageNet奪冠后轉(zhuǎn)戰(zhàn)NLP!卡內(nèi)基梅隆華人博士提出谷歌搜索引擎核心技術(shù)

          共 3288字,需瀏覽 7分鐘

           ·

          2021-07-26 21:11



            新智元報(bào)道  

          來(lái)源:Google AI blog

          編輯:LRS

          【新智元導(dǎo)讀】谷歌的搜索引擎需要很多標(biāo)注數(shù)據(jù)嗎?NO!半監(jiān)督學(xué)習(xí)才是他的核心訓(xùn)練方式!卡內(nèi)基梅隆華人博士提出的Noisy Student在ImageNet奪冠后又在谷歌搜索中大展身手,本文將帶你揭秘知識(shí)蒸餾的正確打開(kāi)方式。


          監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)界最常用的一種方法,只需要根據(jù)已有的數(shù)據(jù)點(diǎn)和標(biāo)注數(shù)據(jù)即可用來(lái)訓(xùn)練預(yù)測(cè)模型。


          在工業(yè)界,由于監(jiān)督學(xué)習(xí)的實(shí)現(xiàn)比較簡(jiǎn)單,所以通常是首選方案。


          然而,監(jiān)督式學(xué)習(xí)需要精確標(biāo)記的數(shù)據(jù),收集這些數(shù)據(jù)通常是勞動(dòng)密集型的任務(wù)。


          此外,隨著更強(qiáng)大的計(jì)算機(jī)體系結(jié)構(gòu)設(shè)計(jì)、算法和硬件(gpu/tpu)可以提高模型的訓(xùn)練效率,訓(xùn)練大型模型來(lái)實(shí)現(xiàn)更高的質(zhì)量的模型也變得更容易,這反過(guò)來(lái)又需要更多標(biāo)記數(shù)據(jù)來(lái)繼續(xù)訓(xùn)練更大的模型。


          為了減少對(duì)有標(biāo)簽數(shù)據(jù)的需求,一個(gè)重要的機(jī)器學(xué)習(xí)領(lǐng)域:半監(jiān)督學(xué)習(xí)被提出來(lái),它能夠結(jié)合少量的有標(biāo)簽數(shù)據(jù)和大量的無(wú)標(biāo)簽的數(shù)據(jù)來(lái)預(yù)測(cè),最近許多模型如UDA,SimCLR都已經(jīng)證明了半監(jiān)督學(xué)習(xí)的有效性。


          受到之前模型的啟發(fā),Google 提出了一個(gè)全新的半監(jiān)督蒸餾模型SSD(semi-supervised distillation),是2019年提出的Noisy Student模型的簡(jiǎn)化版本,這個(gè)模型在自然語(yǔ)言處理領(lǐng)域取得了巨大的成功。


          目前SSD模型已經(jīng)應(yīng)用在了Google搜索中的上下文語(yǔ)言理解中,并且性能強(qiáng)勁。


          這是半監(jiān)督學(xué)習(xí)在大規(guī)模應(yīng)用的首個(gè)成功案例,論文中還說(shuō)明了這個(gè)模型對(duì)生產(chǎn)規(guī)模較大系統(tǒng)的潛在影響。


          Noisy Student提出于2019年,是一個(gè)有效的半監(jiān)督學(xué)習(xí)方法,即使在有標(biāo)簽數(shù)據(jù)很多的情況下,依然能夠取得穩(wěn)定的效果。


          在Noisy Student之前,有大量關(guān)于半監(jiān)督學(xué)習(xí)的研究。盡管進(jìn)行了如此廣泛的研究,但這樣的半監(jiān)督模型系統(tǒng)通常只能在低數(shù)據(jù)(low-data)環(huán)境下運(yùn)行良好,例如,CIFAR、 SVHN 和10% 的 ImageNet。



          Noisy Student的第一作者是謝其哲,是卡內(nèi)基梅隆大學(xué)的博士生,本科畢業(yè)于上海交通大學(xué),曾在Google Brain, 微軟亞洲研究院實(shí)習(xí)。



          隨著標(biāo)記數(shù)據(jù)的增加時(shí),這些模型便無(wú)法與完全監(jiān)督式學(xué)習(xí)系統(tǒng)競(jìng)爭(zhēng),這是影響半監(jiān)督方法應(yīng)用于生產(chǎn)中的重要應(yīng)用,如搜索引擎和自動(dòng)駕駛汽車(chē)領(lǐng)域急需一個(gè)可靠的半監(jiān)督系統(tǒng)模型。


          這一缺陷促使Google 開(kāi)發(fā)了Noisy Student,這是一種在高數(shù)據(jù)量情況下依然能夠運(yùn)行良好的半監(jiān)督學(xué)習(xí)方法,同時(shí)在 ImageNet 上使用130M 額外的未標(biāo)記圖像實(shí)現(xiàn)了最高的準(zhǔn)確度。


          它在ImageNet上達(dá)到88.4%的top-1準(zhǔn)確率,相比ImageNet上需要35億弱標(biāo)注Instagram圖像的sota模型來(lái)說(shuō),Noisy Student要好2.0%。


          在魯邦性測(cè)試集上,它將ImageNet-A-top-1的準(zhǔn)確率從61.0%提高到83.7%,將ImageNet-C的平均錯(cuò)誤率從45.7降低到28.3,并將ImageNet-P的平均翻轉(zhuǎn)率從27.8降低到12.2。



          Noisy Student的訓(xùn)練方式為使用相等或更大的學(xué)生模型,并在學(xué)習(xí)過(guò)程中向?qū)W生添加噪聲,這擴(kuò)展了自我訓(xùn)練和蒸餾的概念。





          在ImageNet上,首先訓(xùn)練了一個(gè)有效的標(biāo)記圖像的網(wǎng)絡(luò)模型,并用它作為teacher為300M的無(wú)標(biāo)簽圖像生成偽標(biāo)記。然后訓(xùn)練一個(gè)更大的EfficientNet作為學(xué)生模型上的組合標(biāo)記和偽標(biāo)記圖像。

          通過(guò)讓student重新成為teacher來(lái)重復(fù)這個(gè)過(guò)程。在student的學(xué)習(xí)過(guò)程中,通過(guò)RandAugment向student注入dropout、隨機(jī)深度、數(shù)據(jù)增強(qiáng)等噪聲,使student的泛化能力強(qiáng)于teacher。

          Noisy Student的訓(xùn)練有四個(gè)簡(jiǎn)單的步驟:

          1、訓(xùn)練一個(gè)分類(lèi)器(teacher)處理有標(biāo)簽的數(shù)據(jù)

          2、teacher在一個(gè)更大的未標(biāo)記數(shù)據(jù)集上推導(dǎo)出偽標(biāo)簽

          3、訓(xùn)練一個(gè)更大的分類(lèi)器對(duì)組合標(biāo)記和偽標(biāo)記數(shù)據(jù),同時(shí)也增加噪聲(成為Noisy Student)

          4、(可選)回到第二步,student可以被當(dāng)作一個(gè)新teacher重新標(biāo)注數(shù)據(jù)并訓(xùn)練

          因?yàn)镹oisy Student模型可以生成偽標(biāo)簽,所以可以將它看作是一種自我訓(xùn)練的形式,通過(guò)重新訓(xùn)練自己以提高性能。

          Noisy Student訓(xùn)練后的模型有一個(gè)令人驚訝的特性是,訓(xùn)練好的模型在魯棒性(robustness)測(cè)試集上運(yùn)行得非常好,這些測(cè)試集沒(méi)有對(duì)它進(jìn)行優(yōu)化,包括 ImageNet-A、 ImageNet-C 和 ImageNet-P。在訓(xùn)練過(guò)程中加入的噪聲不僅有助于學(xué)習(xí),而且使模型更加健壯。


          Noisy Student與知識(shí)蒸餾(knowledge distillation)類(lèi)似,知識(shí)蒸餾一個(gè)將知識(shí)從大型模型(即teacher)轉(zhuǎn)移到小型模型(即student)的過(guò)程。

          蒸餾的目標(biāo)是建立一個(gè)小模型提高預(yù)測(cè)速度,能夠在生產(chǎn)環(huán)境中,以不犧牲太多準(zhǔn)確率的情況下提升效率。

          最簡(jiǎn)單的蒸餾裝置包括一個(gè)teacher和使用相同的數(shù)據(jù),但在實(shí)際使用中,可以使用多個(gè)teacher或?yàn)閟tudent預(yù)留一個(gè)單獨(dú)的數(shù)據(jù)集。


          與Noisy Student不同的是,知識(shí)蒸餾不會(huì)在訓(xùn)練過(guò)程中增加噪聲(例如,數(shù)據(jù)增強(qiáng)或模型正則化) ,通常只包含一個(gè)較小的sutdent模型。相比之下,可以把Noisy Student看作是知識(shí)蒸餾的擴(kuò)展過(guò)程。

          訓(xùn)練半監(jiān)督蒸餾生產(chǎn)模型的另一個(gè)策略是應(yīng)用Noisy Student訓(xùn)練兩次: 首先得到一個(gè)較大的teacher模型 t’,然后得到一個(gè)較小的student s。這種方法產(chǎn)生的模型比單獨(dú)使用監(jiān)督式學(xué)習(xí)或Noisy Student訓(xùn)練都要好。

          具體來(lái)說(shuō),當(dāng)應(yīng)用于一系列 EfficientNet 模型的視覺(jué)領(lǐng)域時(shí),從有5.3 m 參數(shù)的 EfficientNet-b0到有66M 參數(shù)的 EfficientNet-b7,這種策略對(duì)于每個(gè)給定的模型大小都能獲得更好的性能。

          Noisy Student的訓(xùn)練需要數(shù)據(jù)增強(qiáng),例如 RandAugment (用于視覺(jué))或 SpecAugment (用于語(yǔ)音) ,以便更好地工作。

          但在某些確定的應(yīng)用中,例如自然語(yǔ)言處理,這種類(lèi)型的輸入噪聲是不容易獲得的。對(duì)于這些的應(yīng)用場(chǎng)景,Noisy Student的訓(xùn)練可以簡(jiǎn)化為無(wú)噪音。

          在這種情況下,上述兩階段過(guò)程合并為一個(gè)更簡(jiǎn)單的方法,則稱(chēng)之為半監(jiān)督蒸餾(SSD)。首先,teacher模型在未標(biāo)記的數(shù)據(jù)集上推導(dǎo)出偽標(biāo)簽,然后訓(xùn)練一個(gè)新的teacher模型(t’) ,其大小與原來(lái)的teacher模型相同或更大。這一步本質(zhì)上是自我訓(xùn)練,然后通過(guò)知識(shí)提煉,生成一個(gè)用于生產(chǎn)的較小的student模型。


          半監(jiān)督學(xué)習(xí)在視覺(jué)領(lǐng)域取得成功之后,很自然地就把這種技術(shù)引入到語(yǔ)言理解領(lǐng)域的應(yīng)用中,例如谷歌搜索,將成為下一步具有更廣泛用戶(hù)影響力的合乎邏輯的舉措。

          在這種情況下,使用SSD在搜索引擎中的關(guān)鍵排序組件上。模型基于BERT ,以便更好地理解語(yǔ)言。

          這項(xiàng)任務(wù)被證明非常適合于 SSD,事實(shí)上,將 SSD 應(yīng)用到排名組件中,以更好地理解候選搜索結(jié)果與查詢(xún)的相關(guān)性,也是在2020年搜索引擎的頂級(jí)啟動(dòng)中取得了最高的性能收益之一。

          下面是一個(gè)查詢(xún)示例,其中改進(jìn)的模型展示了SSD能幫助模型金星更好的語(yǔ)言理解。




           SSD 將繼續(xù)改變機(jī)器學(xué)習(xí)在工業(yè)中的應(yīng)用,從主流的監(jiān)督式學(xué)習(xí)學(xué)習(xí)到半監(jiān)督學(xué)習(xí)學(xué)習(xí)。


          參考資料:

          https://ai.googleblog.com/2021/07/from-vision-to-language-semi-supervised.html


          -往期精彩-




          瀏覽 81
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文字幕人妻一区二区三区 | 久草免费网站 | 无码人妻一区二区三区三 | 中文字幕日韩在线观看 | 五月丁香六月激情 |