谷歌:引領ML發(fā)展的遷移學習,究竟在遷移什么?丨NeurIPS 2020

??新智元報道??
??新智元報道??
來源:數(shù)據實戰(zhàn)派
作者:青蘋果
【新智元導讀】本文是谷歌研究團隊發(fā)表的論文,揭示了關于遷移學習的最新研究進展,向我們提供了新的工具和分析方法,并得到了一些有趣的結論,比如相比高層的特征,預訓練模型適合遷移的主要是低層的統(tǒng)計信息。
在機器學習領域大熱的分類學習任務中,為了保證訓練得到的分類模型具有準確性和高可靠性,一般會作出兩個基本假設:
用于學習的訓練樣本與新的測試樣本滿足獨立同分布; 必須有足夠可用的訓練樣本才能學習得到一個好的分類模型。
但實際情況很難滿足這兩個條件。

很多 ML 技術只有在訓練數(shù)據和測試數(shù)據處于相同的特征空間中或具有相同分布的假設下才能很好地發(fā)揮作用,一旦隨著時間推移,標簽可用性變差或標注樣本數(shù)據缺乏,效果便不盡如人意。
因此,這就引起 ML 中另一個需要關注的重要問題,如何利用源領域(Source domian)中少量的可用標簽訓練樣本 / 數(shù)據訓練出魯棒性好的模型,對具有不同數(shù)據分布的無標簽 / 少可用標簽的目標領域(Target domain)進行預測。
由此,遷移學習(Transfer Learning)應運而生,并引起了廣泛的關注和研究。
近幾年來,已經有越來越多的研究者投入到遷移學習中。每年機器學習和數(shù)據挖掘的頂級會議中都有關于遷移學習的文章發(fā)表。
顧名思義,遷移學習就是把一個領域已訓練好的模型參數(shù)遷移到另一個領域,使得目標領域能夠取得更好的學習效果。鑒于大部分的數(shù)據具有存在相關性,遷移學習可以比較輕松地將模型已學到的知識分享給新模型,從而避免了從頭學習,這加快效率,也大大提高樣本不充足任務的分類識別結果。
今年的 NeurIPS 上,谷歌的一支研究團隊發(fā)表了一篇名為 What is being transferred in transfer learning? 的論文,揭示了關于遷移學習的最新研究進展。

在這篇論文中,作者便向我們提供了新的工具和分析方法,從不同的角度剖析了不同模塊的作用及影響成功遷移的因素,得到了一些有趣的結論,例如,相比高層的特征,預訓練模型適合遷移的主要是低層的統(tǒng)計信息。
具體而言,通過對遷移到塊混洗圖像(block-shuffled images)的一系列分析,他們從學習低層數(shù)據統(tǒng)計中分離出了特征復用(feature reuse)的效果,并表明當從預訓練權重進行初始化訓練時,該模型位于損失函數(shù) “地圖” 的同一 “盆地”(basin)中,不同實例在特征空間中相似,并且在參數(shù)空間中接近(注:basin 一詞在該領域文獻中經常使用,指代參數(shù)空間中損失函數(shù)相對較低值的區(qū)域)。
遷移學習應用現(xiàn)狀
前百度首席科學家吳恩達(Andrew Ng)曾經說過:遷移學習將會是繼監(jiān)督學習之后,下一個機器學習商業(yè)成功的驅動力。
在 2016 年的 NIPS 會議上,吳恩達曾給出了一個未來 AI 方向的技術發(fā)展判斷:毋庸置疑,目前成熟度最高、成功商用的是監(jiān)督學習,緊隨其后,下一個近 5 年內最可能走向商用的 AI 技術將會是遷移學習。

DeepMind 首席執(zhí)行官 Demis Hassabis 也曾表示,遷移學習也是最有前途的技術之一,有朝一日可能會觸發(fā)通用人工智能的誕生(AGI)。在當下深度學習的發(fā)展大潮中看來,遷移學習確實如此。
如今距離這兩位 AI 學者的 “預測” 已經過去了近 5 年。那么,目前遷移學習應用正呈現(xiàn)怎樣的局面?
在計算機視覺領域,遷移學習已經有了很多成功的應用,甚至在一些任務中,機器能以超越人類精確度的水平完成某項任務。
而在 NLP 領域,遷移學習也是一系列研究突破中的關鍵組成部分,尤其在跨域情感分析上展現(xiàn)了其潛力。

與此同時,遷移學習所存在的問題也隨之暴露。研究人員發(fā)現(xiàn),某些案例中,源域和目標域之間在視覺形式上仍存在不小的差異。對于研究人員而言,已經很難理解什么能夠成功進行遷移,以及網絡的哪些部分對此負責。在這篇論文中,研究團隊專注于研究視覺領域的遷移學習。
4 種網絡的遷移學習
他們分析了四種不同情況下的網絡:
1. 預訓練網絡(P, pre-trained model);
2. 隨機初始化的網絡(RI, random initialization);
3. 在源域上進行預訓練后在目標域上進行微調的網絡(P-T, model trained/fine-tuned on target domain starting from pre-trained weights);
4. 隨機初始化對目標域進行普通訓練的模型(RI-T, model trained on target domain from random initialization)。
首先,團隊通過改組數(shù)據研究了特征復用。將下游任務的圖像劃分為相同大小的塊并隨機排序,數(shù)據中的塊混洗破壞了圖像的視覺特征。該分析表明了特征復用的重要性,并證明了不受像素混洗干擾的低級統(tǒng)計數(shù)據在成功傳輸中也起作用。
然后,需要比較經過訓練的模型的詳細行為。為此,他們調查了從預訓練和從零開始訓練的模型兩者間的異同。實驗證明,與通過隨機初始化訓練的模型相比,使用預訓練的權重訓練的模型的兩個實例在特征空間上更為相似。
再就是調查了預訓練權重和隨機初始化權重訓練的模型的損失情況,并觀察到從預訓練權重訓練的兩個模型實例之間沒有性能降低,這表明預訓練權重能夠將優(yōu)化引導到損失函數(shù)的 basin。
接下來,我們結合文章中的實驗和結果來詳細的分析方法論并探討 “What is being transferred?”。
什么被遷移了?
人類視覺系統(tǒng)的組成具有層次化的特征,視覺皮層中的神經元對邊緣等低級特征做出響應,而上層的神經元對復雜的語義輸入進行響應。一般認為,遷移學習的優(yōu)勢來自重用預先訓練的特征層。如果下游任務因為太小或不夠多樣化而無法學習良好的特征表示時,這會變得特別有用。
因此,很容易理解,大家認為遷移學習有用的直覺思維就是,遷移學習通過特征復用來給樣本少的數(shù)據提供一個較好的特征先驗。
然而,這種直覺卻無法解釋為什么在遷移學習的許多成功應用中,目標領域和源領域在視覺上差異很大的問題。

為了更清楚地描述特征復用的作用,作者使用了圖 1 中包含自然圖像(ImageNet)的源域(預訓練)和一些與自然圖像的視覺相似度低的目標域(下游任務)。
圖 2 可以看到,real domain 具有最大的性能提升,因為該域包含與 ImageNet 共享相似視覺特征的自然圖像。這能夠支撐團隊成員的假設 —— 特征復用在遷移學習中起著重要作用。另一方面,在數(shù)據差別特別大的時候(CheXpert 和 quickdraw),仍然可以觀察到遷移學習帶來的明顯的性能提升。
?

除最終性能外,在所有情況下,P-T 的優(yōu)化收斂速度都比 RI-T 快得多。這也暗示出預訓練權重在遷移學習中的優(yōu)勢并非直接來自特征復用。
為了進一步驗證該假設,團隊修改了下游任務,使其與正常視覺域的距離進一步拉大,尤其是將下游任務的圖像劃分為相等大小的塊并隨機排序。
混洗擾亂了那些圖像中的高級視覺功能,模型只能抓住淺層特征,而抽象特征沒法很好地被提取。
其中,塊大小 224*224 的極端情況意味著不進行混洗;在另一種極端情況下,圖像中的所有像素都將被混洗,從而使得在預訓練中學到的任何視覺特征完全無用。
在本文中,團隊成員創(chuàng)造出了一種特殊情況,每個通道的像素都可以獨立的移動,并且可以移動到其他通道中。

圖 3 顯示了不同塊大小對最終性能和優(yōu)化速度的影響。我們可以觀察到以下幾點:
隨著打亂程度的加劇,RI-T 和 P-T 的最終性能都會下降,任務越發(fā)困難;
相對精度差異隨塊尺寸(clipart, real)的減小而減小,說明特征復用很有效果;
quickdraw 上情況相反是由于其數(shù)據集和預訓練的數(shù)據集相差過大,但是即便如此,在 quickdraw 上預訓練還是有效的,說明存在除了特征復用以外的因素;
P-T 的優(yōu)化速度相對穩(wěn)定,而 RI-T 的優(yōu)化速度隨著塊尺寸的減小時存在急劇的下降。這表明特征復用并不是影響 P-T 訓練速度的主要因素。
由上述實驗得出結論,特征復用在遷移學習中起著非常重要的作用,尤其是當下游任務與預訓練域共享相似的視覺特征時。但是仍存在其他因素,例如低級別的統(tǒng)計信息,可能會帶來遷移學習的顯著優(yōu)勢,尤其是在優(yōu)化速度方面。
失誤和特征相似性
這部分主要通過探究不同模型有哪些 common mistakes 和 uncommon mistakes 來揭示預訓練的作用。
為了理解不同模型之間的差異,作者首先比較兩個 P-T,一個 P-T 加一個 RI-T 和兩個 RI-T 之間的兩類錯誤率并發(fā)現(xiàn) P-T 和 RI-T 模型之間存在許多 uncommon mistakes,而兩個 P-T 的 uncommon mistakes 則要少得多。對于 CheXpert 和 DomainNet 目標域,都是這種情況。
在 DomainNet 上可視化每個模型的兩類錯誤并觀察得到,P-T 不正確和 RI-T 正確的數(shù)據樣本主要包括模棱兩可的例子;而 P-T 是正確的數(shù)據樣本和 RI-T 是不正確的數(shù)據樣本也包括許多簡單樣本。
這符合假設,P-T 在簡單樣本上的成功率很高,而在比較模糊難以判斷的樣本上比較難 (而此時 RI-T 往往比較好), 說明 P-T 有著很強的先驗知識,因此很難適應目標域。
為了加強對上述想法的驗證,團隊成員又對特征空間中兩個網絡的相似性進行了研究。
通過中心核對齊 (CKA, Centered Kernel Alignment) 這一指標發(fā)現(xiàn),P-T 的兩個實例在不同層之間非常相似,在 P-T 和 P 之間也是如此。但是 P-T 和 RI-T 實例或兩個 RI-T 實例之間,相似性非常低。

也就是說,基于預訓練的模型之間的特征相似度很高,而 RI-T 與其他模型相似度很低,哪怕是兩個相同初始化的 RI-T。這顯然在說明預訓練模型之間往往是在重復利用相同的特征,也就強調了特征復用的作用。表 2 為不同模型的參數(shù)的距離,同樣能夠反映出上述結論。
泛化性能

模塊重要度



在預訓練中,在學習率下降的 epoch 30 和 epoch 60 觀察到了很大的性能提升。但是,從檢查點 29、30、31(和類似的 59、60、61)初始化不會顯示出明顯不同的影響。另一方面,特別是對于 real 和 clipart 的最終性能,當從訓練前性能一直處于平穩(wěn)狀態(tài)的檢查點(如檢查點 29 和 59)開始時,可以觀察到顯著的改進。這表明,預訓練性能并不總是作為預訓練權重對遷移學習有效性的忠實指標。
quickdraw 在預訓練中發(fā)現(xiàn)最終性能的收益要小得多,并在檢查點 10 迅速達到平穩(wěn)狀態(tài),而 real 和 clipart 直到檢查點 60 都不斷看到的性能的顯著改進。另一方面,隨著檢查點索引的增加,所有三個任務在優(yōu)化速度改進上均具有明顯的優(yōu)勢。
優(yōu)化速度在檢查點 10 處開始達到平穩(wěn)狀態(tài),而對于 real 和 clipart,最終結果則不斷提升。在訓練前的早期檢查點是在收斂模型的 basin 之外,在訓練期間的某個點便進入 basin。這也解釋了在一些檢查點之后性能停滯不前的原因。


