99久久婷婷,天堂中文字幕在线观看,婷婷五月天丁香网,欧美大片操,青娱网电信一区电信二区电信三区 ,国产亚洲美女手机毛片,操骚逼网站,青青草狠狠爱

??新智元推薦?

來源：AMiner科技

作者：戚路北

【新智元導讀】在Medium上，一位名為Prabhu Prakash Kagitha的博主，根據NeurIPS 2020上的論文發(fā)表了一篇題為“NeurIPS 2020 Papers: Takeaways for a Deep Learning Engineer”的文章，閱讀了NeurIPS 2020中的175篇論文的摘要，匯總了與深度學習有關的見解。

讓我們一起看看深度學習er都能學習到什么：

1、加速基于Transformer的語言模型的逐層下降訓練

與標準翻譯器相比，可切換翻譯器(ST)的預訓練速度快2.5倍。

配備可切換門(G在fg。下面)，一些層是根據伯努利分布抽樣0或1隨機跳過的，每個抽樣的時間效率為25%。

(a)標準變壓器(b)重新排序，使其PreLN (c)開關門(G)決定是否包含層。

結果表明，該方法在減少了53%的訓練樣本的情況下，達到了與基線相同的驗證誤差。

結合時間和樣本效率，預訓練的速度比下游任務快2.5倍，有時甚至更好。

小貼士:當你想要預訓練或finetune一個轉換器時，試著使用可切換的轉換器，以獲得更快的訓練和低推理時間。

2、用于神經網絡抗噪聲標簽的Robust訓練的核心集

前面已經證明，神經網絡權值(W)和干凈數(shù)據(X)的雅可比矩陣經過一定的訓練后會近似為一個低秩矩陣，有一些較大的奇異值和大量非常小的奇異值。

同樣，歸納(即從干凈的數(shù)據中)的學習是在一個叫做信息空間(I)的低維空間中，而不歸納(即從嘈雜的標簽中，主要是記憶)的學習是在一個叫做討厭的空間(N) Nuisance space的高維空間中。

目前的工作引入了一種技術，該技術可以創(chuàng)建一組大部分干凈的數(shù)據(Coresets)來訓練模型，并顯示在有噪聲的數(shù)據集上的性能顯著提高，即與最先進的技術相比，在帶有50%噪聲標簽的迷你Webvision上性能提高了7%。

在這篇論文中介紹的方法，CRUST，表現(xiàn)明顯優(yōu)于最先進的。

小貼士：當你懷疑你收集的數(shù)據集有噪聲/錯誤標記的數(shù)據點時，使用CRUST只在干凈的數(shù)據上訓練模型，提高性能和穩(wěn)定性。

3、基于預訓練BERT網絡模型的彩票假設

在訓練過程相同的情況下，存在一個表現(xiàn)出與原始完整網絡相當性能的子網絡。這些子網被稱為彩票，并由掩碼定義，掩碼告訴哪些權重在原始網絡中被置零。

目前的工作采用迭代幅度修剪(IMP)，對一個子網進行一定時間的訓練，并對k%較小幅度的權重進行修剪。這個過程重復多次，直到稀疏度達到目標稀疏度。重要的是，在每次迭代訓練之后，模型將以初始參數(shù)重新開始，而不是更新權重直到那時，這被稱為倒帶。

這里，預先訓練的BERT的權值是我們開始IMP時的初始化。彩票是預先訓練的BERT的子網絡也包含相同的預先訓練的權值，其中一些被置零。

這項工作表明彩票假設對預先訓練的BERT模型同樣適用。并發(fā)現(xiàn)在一系列下游任務中，子網的稀疏度為40%到90%。

最后一行對應于本文所介紹的方法。即使它是40%-90%的稀疏，性能可與完整的Bert base相媲美。

此外，作者還發(fā)現(xiàn)了一個預訓練的具有70%稀疏性的BERT票，它可以轉移到許多下游任務中，并且執(zhí)行得至少與為特定下游任務發(fā)現(xiàn)的70%稀疏票一樣好或更好。

小貼士：研究NLP的深度學習工程師必須經常對BERT進行下游任務的預先訓練。不是從全尺寸的BERT開始，而是從在MLM下游任務(倒數(shù)第一行)上找到的70%稀疏彩票開始fine-tuning，以更快地訓練并減少推理時間和內存帶寬，而不損失性能。

4、MPNet:語言理解預先訓練的掩蔽和排列

MPNet是隱藏語言建模(MLM)和自回歸排列語言建模(PLM)的混合，采用了各自的優(yōu)點，并避免了它們的局限性。

屏蔽語言建模，就像BERT風格的模型一樣，屏蔽掉約15%的數(shù)據，并試圖預測那些屏蔽標記。由于掩蔽令牌之間的依賴關系沒有建模，導致了預訓練-微調差異，這被稱為輸出依賴。

另一方面,自回歸建模交換語言,如XLNet,沒有完整的信息輸入句子，即當預測說第五元素8-element序列模型并不知道有8序列中的元素,因此導致pre train-finetune差異(模型看到整個輸入句子/段下游任務),稱為輸入一致性。

MPNet將兩者結合起來。通過在句子末尾添加額外的掩碼來修改類似xlnet的體系結構，以便在任何位置的預測將涉及N個標記，其中N是序列的長度，其中一些是掩碼。

說明了MPNet是如何將傳銷和PLM結合在一起的。

他們使用XLNet中引入的雙流自我注意來支持自回歸類型預測，在這一步，任何位置的內容都應該被掩蓋以進行預測，但在后面的步驟中，預測應該是可見的。

與之前最先進的預訓練方法(如BERT、XLNet、RoBERTa)相比，MPNet比MLM和PLM表現(xiàn)更出色，在GLUE、SQUAD等任務上的表現(xiàn)也更好。

小貼士:如果你曾經想要在你的領域特定數(shù)據上預先訓練一個語言模型，或者使用更多的數(shù)據，可以使用MPNet，它已經被證明具有最好的MLP和PLM世界。

5、使用邊緣排名下的區(qū)域識別錯誤標記的數(shù)據

在大規(guī)模數(shù)據集中，錯誤標記的數(shù)據是常見的，因為它們是“眾包”或從互聯(lián)網上抓取的，容易產生噪聲。

這項工作形成了一個簡單直觀的想法。假設有100張狗的圖片，但其中20張被標記為“鳥”。同樣的，100只鳥的圖片，但其中20只被貼上了“狗”的標簽。

經過一些訓練后，對于一張錯誤標記為“鳥”的狗的圖像，模型給出了相當大的概率標記為“狗”，因為從80張正確標記的圖像中歸納出來。這個模型也給出了“鳥”這個標簽的相當大的可能性，因為它記住了那20個錯誤標記的圖像。

現(xiàn)在，“狗”的概率和“鳥”的概率之間的差異被稱為“邊緣區(qū)域”(AUM)。本研究建議，如果AUM低于某個預先定義的閾值，我們應該將其視為錯誤標記的數(shù)據樣本，并將其從訓練中刪除。

如果我們不能確定一個閾值，我們可以故意填充錯誤標記的數(shù)據，看看這些例子的AUM是什么，這就是我們的臨界值。

在WebVision50分類任務中，該方法刪除了17%的訓練數(shù)據，測試錯誤減少了1.6%(絕對)。在CIFAR100上刪除13%的數(shù)據會導致誤差下降1.2%。

小貼士:在創(chuàng)建數(shù)據集時，噪聲/錯誤標記的數(shù)據樣本大多是不可避免的。然后，使用AUM方法找到錯誤標記的數(shù)據樣本，并將其從最終的訓練數(shù)據集中刪除。

6、重新思考標簽對于改善課堂不平衡學習的價值

當現(xiàn)有的標簽是不平衡的類(有些類比其他類有更多的帶標簽的例子)，并且我們有很多未帶標簽的數(shù)據時，我們還需要標簽嗎?

積極的（positive）。是的，我們需要標簽。對未標記的數(shù)據進行自我訓練，你將會獲得成功。(自我訓練是一個過程，中間模型是在人類標記的數(shù)據上訓練的，用來創(chuàng)建“標簽”(或偽標簽)，然后最終模型是在人類標記和中間模型標記的數(shù)據上訓練的)。

消極的（negative）。我們可以把標簽去掉。可以對所有可用數(shù)據使用自我監(jiān)督的預訓練，以學習有意義的表示，然后學習實際的分類任務。結果表明，該方法提高了性能

小貼士：如果你有類別不平衡的標簽和更多的未標記數(shù)據，那么就進行自我訓練或自我監(jiān)督的預訓練吧。(盡管CIFAR-10-LT顯示了自我訓練勝過自我監(jiān)督學習)。

7、Big Bird：長序列翻譯

標準翻譯器的自注意是二次復雜度(存儲和計算)wrt序列長度。因此，訓練較長的序列是不可行的。

在Big Bird中，它使用稀疏注意，其中一個特定位置只關注幾個隨機選擇的token和一些鄰近的token。

但這并不是它工作的原因。Big Bird有多個用于處理整個序列的CLS標記。任何位置的標記都會處理這些CLS標記給它們相關的上下文、依賴關系，誰知道自我注意層還能學到什么呢。

不同類型的注意在稀疏注意(a)隨機注意(b)窗口鄰域注意(c)添加CLS令牌后的全局注意。(圖片摘自本論文的pdf版本。)

“Big Bird稀疏的注意力可以處理長達8倍于之前使用類似硬件的序列。由于能夠處理更長的上下文，Big Bird大大提高了各種NLP任務的性能，如回答問題、總結和基因組數(shù)據的新應用?！?/span>

小貼士:如果你要處理較長的句子或序列，比如摘要或基因組數(shù)據的應用，請使用Big Bird進行可行的訓練和合理的推理時間。即使是更小的句子，也要用Big Bird。

8、通過權重共享來改進自動增重

為特定任務選擇一系列轉換及其大小進行數(shù)據擴展是特定領域的，而且很耗時。

自動增強是一種學習最佳轉換序列的技術，其回報是否定驗證損失。通常使用RL來學習該策略。學習這個最優(yōu)策略的一次迭代需要完全訓練一個模型，因此是一個非常昂貴的過程。

因此，目前的工作試圖使這個過程更有效。這是基于之前所展示的洞察力，當訓練有一系列的轉換時，轉換的效果只在訓練的后期階段突出。

在當前的工作中，對于評估特定策略(轉換序列)的每次迭代，大部分的培訓都使用共享策略完成，只有培訓的最后一部分是使用要評估的當前策略完成的。這被稱為增廣加權共享。

當使用共享策略的訓練在所有迭代中只進行一次時，該方法可以有效地學習最優(yōu)策略。

在CIFAR-10上，該方法的錯誤率最高為1.24%，是目前在沒有額外訓練數(shù)據的情況下表現(xiàn)最好的單一模型。在ImageNet上，該方法的錯誤率最高，為ResNet-50的20.36%，這導致了比基線增強的絕對錯誤率減少3.34%?！?/span>

小貼士：當你有資源使用最優(yōu)的數(shù)據增強序列來提高模型的性能時，使用這種方法來訓練RL代理，它學習最優(yōu)策略，這更有效，也使自動增強在大型數(shù)據集上可行。

9、集中注意力的快速翻譯

和上面的Big Bird一樣，快速翻譯近似于標準的自我關注，使其從二次依賴性變?yōu)榫€性。

為了做到這一點，不是對所有的注意力進行計算(O(sequence_length*sequence_length))，而是對查詢進行聚類，并且只對centroids計算注意力值。

一個特定集群中的所有查詢都將獲得相同的關注值。這使得整體計算的自我注意線性wrt序列長度。O (num_clusters * sequence_length)。

“這篇論文表明，F(xiàn)ast transformer可以用最少的集群來近似任意復雜的注意力分布，方法是在GLUE和SQUAD基準上近似預訓練的BERT模型，只有25個集群，并且沒有性能損失?！?/span>

小貼士:這并不像我們在上面看到的Big Bird那樣優(yōu)雅，但一個人必須嘗試所有的選擇，把自我關注的二次復雜性變成線性的。

10、自我關注的深度限制和效率

在縮放轉換器時，經驗表明增加寬度(內部表示的維度)與增加深度(自我注意層數(shù))同樣有效。

相反，更具體地說，這項工作表明，我們可以將轉換器縮放到“深度閾值”，即以寬度的3為底的對數(shù)。如果深度低于此深度閾值，則增加深度比增加寬度更有效。這被稱為深度效率。

如果深度高于這個深度閾值增加深度會比增加寬度造成傷害。這被稱為深度無效率。

小貼士:當你想為下一個大型語言模型擴展翻譯架構時，請記住，如果寬度不夠大，增加深度也無濟于事。深度應該總是小于“深度閾值”，即以3為底的寬度的對數(shù)。所以，在增加深度之前先增加寬度，以使你的轉換器達到近乎瘋狂的深度。

綜上，正如小貼士所呈現(xiàn)的那樣，通過閱讀NeurIPS2020論文，我們獲得了這些模型訓練技巧，在深度學習的路上越走越遠。

175篇論文告訴你深度學習er能從NeurIPS 2020論文學到什么？

??新智元推薦?

175篇論文告訴你深度學習er能從NeurIPS 2020論文學到什么？