<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          175篇論文告訴你深度學習er能從NeurIPS 2020論文學到什么?

          共 4744字,需瀏覽 10分鐘

           ·

          2021-02-05 20:24



          ??新智元推薦?

          來源:AMiner科技

          作者:戚路北

          【新智元導讀】Medium上,一位名為Prabhu Prakash Kagitha的博主,根據NeurIPS 2020上的論文發(fā)表了一篇題為“NeurIPS 2020 Papers: Takeaways for a Deep Learning Engineer”的文章,閱讀了NeurIPS 2020中的175篇論文的摘要,匯總了與深度學習有關的見解。



          讓我們一起看看深度學習er都能學習到什么:

          1、加速基于Transformer的語言模型的逐層下降訓練


          與標準翻譯器相比,可切換翻譯器(ST)的預訓練速度快2.5倍。

          配備可切換門(G在fg。下面),一些層是根據伯努利分布抽樣0或1隨機跳過的,每個抽樣的時間效率為25%。

          (a)標準變壓器(b)重新排序,使其PreLN (c)開關門(G)決定是否包含層。

          結果表明,該方法在減少了53%的訓練樣本的情況下,達到了與基線相同的驗證誤差。
          結合時間和樣本效率,預訓練的速度比下游任務快2.5倍,有時甚至更好。

          小貼士:當你想要預訓練或finetune一個轉換器時,試著使用可切換的轉換器,以獲得更快的訓練和低推理時間。


          2、用于神經網絡抗噪聲標簽的Robust訓練的核心集


          前面已經證明,神經網絡權值(W)和干凈數(shù)據(X)的雅可比矩陣經過一定的訓練后會近似為一個低秩矩陣,有一些較大的奇異值和大量非常小的奇異值。

          同樣,歸納(即從干凈的數(shù)據中)的學習是在一個叫做信息空間(I)的低維空間中,而不歸納(即從嘈雜的標簽中,主要是記憶)的學習是在一個叫做討厭的空間(N) Nuisance space的高維空間中。

          目前的工作引入了一種技術,該技術可以創(chuàng)建一組大部分干凈的數(shù)據(Coresets)來訓練模型,并顯示在有噪聲的數(shù)據集上的性能顯著提高,即與最先進的技術相比,在帶有50%噪聲標簽的迷你Webvision上性能提高了7%


          在這篇論文中介紹的方法,CRUST,表現(xiàn)明顯優(yōu)于最先進的。

          小貼士:當你懷疑你收集的數(shù)據集有噪聲/錯誤標記的數(shù)據點時,使用CRUST只在干凈的數(shù)據上訓練模型,提高性能和穩(wěn)定性。


          3、基于預訓練BERT網絡模型的彩票假設


          在訓練過程相同的情況下,存在一個表現(xiàn)出與原始完整網絡相當性能的子網絡。這些子網被稱為彩票,并由掩碼定義,掩碼告訴哪些權重在原始網絡中被置零。

          目前的工作采用迭代幅度修剪(IMP),對一個子網進行一定時間的訓練,并對k%較小幅度的權重進行修剪。這個過程重復多次,直到稀疏度達到目標稀疏度。重要的是,在每次迭代訓練之后,模型將以初始參數(shù)重新開始,而不是更新權重直到那時,這被稱為倒帶。

          這里,預先訓練的BERT的權值是我們開始IMP時的初始化。彩票是預先訓練的BERT的子網絡也包含相同的預先訓練的權值,其中一些被置零。

          這項工作表明彩票假設對預先訓練的BERT模型同樣適用。并發(fā)現(xiàn)在一系列下游任務中,子網的稀疏度為40%到90%。


          最后一行對應于本文所介紹的方法。即使它是40%-90%的稀疏,性能可與完整的Bert base相媲美

          此外,作者還發(fā)現(xiàn)了一個預訓練的具有70%稀疏性的BERT票,它可以轉移到許多下游任務中,并且執(zhí)行得至少與為特定下游任務發(fā)現(xiàn)的70%稀疏票一樣好或更好。

          小貼士:研究NLP的深度學習工程師必須經常對BERT進行下游任務的預先訓練。不是從全尺寸的BERT開始,而是從在MLM下游任務(倒數(shù)第一行)上找到的70%稀疏彩票開始fine-tuning,以更快地訓練并減少推理時間和內存帶寬,而不損失性能。

          4、MPNet:語言理解預先訓練的掩蔽和排列


          MPNet是隱藏語言建模(MLM)和自回歸排列語言建模(PLM)的混合,采用了各自的優(yōu)點,并避免了它們的局限性。

          屏蔽語言建模,就像BERT風格的模型一樣,屏蔽掉約15%的數(shù)據,并試圖預測那些屏蔽標記。由于掩蔽令牌之間的依賴關系沒有建模,導致了預訓練-微調差異,這被稱為輸出依賴。

          另一方面,自回歸建模交換語言,如XLNet,沒有完整的信息輸入句子,即當預測說第五元素8-element序列模型并不知道有8序列中的元素,因此導致pre train-finetune差異(模型看到整個輸入句子/段下游任務),稱為輸入一致性。

          MPNet將兩者結合起來。通過在句子末尾添加額外的掩碼來修改類似xlnet的體系結構,以便在任何位置的預測將涉及N個標記,其中N是序列的長度,其中一些是掩碼。

          說明了MPNet是如何將傳銷和PLM結合在一起的。

          他們使用XLNet中引入的雙流自我注意來支持自回歸類型預測,在這一步,任何位置的內容都應該被掩蓋以進行預測,但在后面的步驟中,預測應該是可見的。
          與之前最先進的預訓練方法(如BERT、XLNet、RoBERTa)相比,MPNet比MLM和PLM表現(xiàn)更出色,在GLUE、SQUAD等任務上的表現(xiàn)也更好。

          小貼士:如果你曾經想要在你的領域特定數(shù)據上預先訓練一個語言模型,或者使用更多的數(shù)據,可以使用MPNet,它已經被證明具有最好的MLP和PLM世界。

          5、使用邊緣排名下的區(qū)域識別錯誤標記的數(shù)據


          在大規(guī)模數(shù)據集中,錯誤標記的數(shù)據是常見的,因為它們是“眾包”或從互聯(lián)網上抓取的,容易產生噪聲。

          這項工作形成了一個簡單直觀的想法。假設有100張狗的圖片,但其中20張被標記為“鳥”。同樣的,100只鳥的圖片,但其中20只被貼上了“狗”的標簽。

          經過一些訓練后,對于一張錯誤標記為“鳥”的狗的圖像,模型給出了相當大的概率標記為“狗”,因為從80張正確標記的圖像中歸納出來。這個模型也給出了“鳥”這個標簽的相當大的可能性,因為它記住了那20個錯誤標記的圖像。

          現(xiàn)在,“狗”的概率和“鳥”的概率之間的差異被稱為“邊緣區(qū)域”(AUM)。本研究建議,如果AUM低于某個預先定義的閾值,我們應該將其視為錯誤標記的數(shù)據樣本,并將其從訓練中刪除。

          如果我們不能確定一個閾值,我們可以故意填充錯誤標記的數(shù)據,看看這些例子的AUM是什么,這就是我們的臨界值。

          在WebVision50分類任務中,該方法刪除了17%的訓練數(shù)據,測試錯誤減少了1.6%(絕對)。在CIFAR100上刪除13%的數(shù)據會導致誤差下降1.2%。

          小貼士:在創(chuàng)建數(shù)據集時,噪聲/錯誤標記的數(shù)據樣本大多是不可避免的。然后,使用AUM方法找到錯誤標記的數(shù)據樣本,并將其從最終的訓練數(shù)據集中刪除。


          6、重新思考標簽對于改善課堂不平衡學習的價值


          當現(xiàn)有的標簽是不平衡的類(有些類比其他類有更多的帶標簽的例子),并且我們有很多未帶標簽的數(shù)據時,我們還需要標簽嗎?

          積極的(positive)。是的,我們需要標簽。對未標記的數(shù)據進行自我訓練,你將會獲得成功。(自我訓練是一個過程,中間模型是在人類標記的數(shù)據上訓練的,用來創(chuàng)建“標簽”(或偽標簽),然后最終模型是在人類標記和中間模型標記的數(shù)據上訓練的)。

          消極的(negative)。我們可以把標簽去掉。可以對所有可用數(shù)據使用自我監(jiān)督的預訓練,以學習有意義的表示,然后學習實際的分類任務。結果表明,該方法提高了性能

          小貼士:如果你有類別不平衡的標簽和更多的未標記數(shù)據,那么就進行自我訓練或自我監(jiān)督的預訓練吧。(盡管CIFAR-10-LT顯示了自我訓練勝過自我監(jiān)督學習)。


          7、Big Bird:長序列翻譯


          標準翻譯器的自注意是二次復雜度(存儲和計算)wrt序列長度。因此,訓練較長的序列是不可行的。

          在Big Bird中,它使用稀疏注意,其中一個特定位置只關注幾個隨機選擇的token和一些鄰近的token。

          但這并不是它工作的原因。Big Bird有多個用于處理整個序列的CLS標記。任何位置的標記都會處理這些CLS標記給它們相關的上下文、依賴關系,誰知道自我注意層還能學到什么呢。

          不同類型的注意在稀疏注意(a)隨機注意(b)窗口鄰域注意(c)添加CLS令牌后的全局注意。(圖片摘自本論文的pdf版本。)

          “Big Bird稀疏的注意力可以處理長達8倍于之前使用類似硬件的序列。由于能夠處理更長的上下文,Big Bird大大提高了各種NLP任務的性能,如回答問題、總結和基因組數(shù)據的新應用?!?/span>

          小貼士:如果你要處理較長的句子或序列,比如摘要或基因組數(shù)據的應用,請使用Big Bird進行可行的訓練和合理的推理時間。即使是更小的句子,也要用Big Bird。


          8、通過權重共享來改進自動增重


          為特定任務選擇一系列轉換及其大小進行數(shù)據擴展是特定領域的,而且很耗時。
          自動增強是一種學習最佳轉換序列的技術,其回報是否定驗證損失。通常使用RL來學習該策略。學習這個最優(yōu)策略的一次迭代需要完全訓練一個模型,因此是一個非常昂貴的過程。

          因此,目前的工作試圖使這個過程更有效。這是基于之前所展示的洞察力,當訓練有一系列的轉換時,轉換的效果只在訓練的后期階段突出。

          在當前的工作中,對于評估特定策略(轉換序列)的每次迭代,大部分的培訓都使用共享策略完成,只有培訓的最后一部分是使用要評估的當前策略完成的。這被稱為增廣加權共享。

          當使用共享策略的訓練在所有迭代中只進行一次時,該方法可以有效地學習最優(yōu)策略。

          在CIFAR-10上,該方法的錯誤率最高為1.24%,是目前在沒有額外訓練數(shù)據的情況下表現(xiàn)最好的單一模型。在ImageNet上,該方法的錯誤率最高,為ResNet-50的20.36%,這導致了比基線增強的絕對錯誤率減少3.34%?!?/span>

          小貼士:當你有資源使用最優(yōu)的數(shù)據增強序列來提高模型的性能時,使用這種方法來訓練RL代理,它學習最優(yōu)策略,這更有效,也使自動增強在大型數(shù)據集上可行。


          9、集中注意力的快速翻譯


          和上面的Big Bird一樣,快速翻譯近似于標準的自我關注,使其從二次依賴性變?yōu)榫€性。

          為了做到這一點,不是對所有的注意力進行計算(O(sequence_length*sequence_length)),而是對查詢進行聚類,并且只對centroids計算注意力值。

          一個特定集群中的所有查詢都將獲得相同的關注值。這使得整體計算的自我注意線性wrt序列長度。O (num_clusters * sequence_length)。

          “這篇論文表明,F(xiàn)ast transformer可以用最少的集群來近似任意復雜的注意力分布,方法是在GLUE和SQUAD基準上近似預訓練的BERT模型,只有25個集群,并且沒有性能損失?!?/span>

          小貼士:這并不像我們在上面看到的Big Bird那樣優(yōu)雅,但一個人必須嘗試所有的選擇,把自我關注的二次復雜性變成線性的。


          10、自我關注的深度限制和效率


          在縮放轉換器時,經驗表明增加寬度(內部表示的維度)與增加深度(自我注意層數(shù))同樣有效。

          相反,更具體地說,這項工作表明,我們可以將轉換器縮放到“深度閾值”,即以寬度的3為底的對數(shù)。如果深度低于此深度閾值,則增加深度比增加寬度更有效。這被稱為深度效率。

          如果深度高于這個深度閾值增加深度會比增加寬度造成傷害。這被稱為深度無效率。

          小貼士:當你想為下一個大型語言模型擴展翻譯架構時,請記住,如果寬度不夠大,增加深度也無濟于事。深度應該總是小于“深度閾值”,即以3為底的寬度的對數(shù)。所以,在增加深度之前先增加寬度,以使你的轉換器達到近乎瘋狂的深度。

          綜上,正如小貼士所呈現(xiàn)的那樣,通過閱讀NeurIPS2020論文,我們獲得了這些模型訓練技巧,在深度學習的路上越走越遠。




          瀏覽 32
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一级a毛片免费观看久久精品 | 婷婷丁香五月天婷婷 | 韩国一区二区在线黄 | 色老板不卡av在线 | 琪琪亚洲 |