<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          加速100倍,性能媲美SOTA!浙大提出無數(shù)據(jù)知識蒸餾新方法FastDFKD

          共 4309字,需瀏覽 9分鐘

           ·

          2022-02-11 11:47

          來源:機器之心

          本文共2400字,建議閱讀5分鐘

          本文為你介紹知識蒸餾的新方法。


          在無法獲取到原始訓(xùn)練數(shù)據(jù)的情況下,你可以嘗試一下這種新型蒸餾算法 FastDFKD,數(shù)據(jù)合成與現(xiàn)有的生成方法相比,可以實現(xiàn) 10 倍的加速,與非生成方法相比,甚至可以達到 100 倍以上的加速。

          知識蒸餾(KD)最近成為一種流行的范式,它是一種很典型的模型壓縮方法,可以復(fù)用如今在線流行的預(yù)訓(xùn)練模型。隨著自然語言處理模型等進入了預(yù)訓(xùn)練模型的時代,模型的規(guī)模也在極速增長,例如 GPT-3 參數(shù)量達到 1750 億。如何在資源有限的情況下部署使用這些龐大的模型是一個很大的挑戰(zhàn)。

          知識蒸餾在解決這一問題中占據(jù)了重要的地位。我們可以用它來有效地從大型教師模型學(xué)習(xí)小型學(xué)生模型,并且學(xué)生模型的性能也很不錯。

          KD 的傳統(tǒng)設(shè)置需要擁有原始訓(xùn)練數(shù)據(jù)作為輸入以訓(xùn)練學(xué)生模型。不幸的是,由于隱私或版權(quán)原因,在很多情況下,原始數(shù)據(jù)無法發(fā)布,用戶只能使用預(yù)先訓(xùn)練好的模型,反過來,這對 KD 應(yīng)用于更廣泛的領(lǐng)域構(gòu)成了主要障礙。

          為了解決這個問題,有研究者(Lopes, Fenu,Starner 2017)提出了無數(shù)據(jù)知識蒸餾 (DFKD,Data-free knowledge distillation) 方法,這種方法假設(shè)根本無法獲得訓(xùn)練數(shù)據(jù)。由于 DFKD 對訓(xùn)練數(shù)據(jù)的約束非常寬松,其在自然語言處理、計算機視覺等領(lǐng)域受到越來越多的關(guān)注。

          DFKD 雖然取得了一些比較好的結(jié)果,但 SOTA 性能的 DFKD 方法仍然存在數(shù)據(jù)合成效率較低的問題,這使得無數(shù)據(jù)訓(xùn)練過程非常耗時,因此不適用于大規(guī)模訓(xùn)練任務(wù)。

          在這項研究中,來自浙江大學(xué)、新加坡國立大學(xué)等機構(gòu)的研究者引入了一種有效的解決方案 FastDFKD,其能夠?qū)?DFKD 加速一個數(shù)量級。FastDFKD 的核心是:復(fù)用訓(xùn)練數(shù)據(jù)中共享的公共特征,從而合成不同的數(shù)據(jù)實例。不同于之前單獨優(yōu)化一組數(shù)據(jù),該研究建議學(xué)習(xí)一個元合成器(meta-synthesizer),可以尋求共同特征作為快速數(shù)據(jù)合成的初始化。因此,F(xiàn)astDFKD 只需幾步即可實現(xiàn)數(shù)據(jù)合成,顯著提高了無數(shù)據(jù)訓(xùn)練的效率。在 CIFAR、NYUv2 和 ImageNet 上的實驗表明,所提出的 FastDFKD 實現(xiàn)了 10 倍甚至 100 倍的加速,同時保持了與當前 SOTA 相當?shù)男阅堋?/span>


          論文地址:

          https://arxiv.org/pdf/2112.06253.pdf


          方法

          在 DFKD 中,求解如下等式 (2) 的一種流行方法是直接按批次優(yōu)化多種樣本。


          如下圖 2 (a) 所示,基于批的方法獨立合成不同的實例,僅考慮樣本之間的關(guān)系。盡管這種方法取得了不錯的結(jié)果,但 DFKD 方法通常存在數(shù)據(jù)合成效率低下的問題,因為制作大規(guī)模數(shù)據(jù)集需要大量優(yōu)化問題,每個問題都需要數(shù)千步才能收斂。然而,來自同一域的數(shù)據(jù)通常具有一些共同特征,這些特征可以重復(fù)用于合成不同的樣本。因此,F(xiàn)astDFKD 旨在提供一種學(xué)習(xí)共同特征來加速等式 (2) 優(yōu)化的新型有效方法。


          FastDFKD 方法的核心是復(fù)用共同特征,這是基于來自同一領(lǐng)域的數(shù)據(jù)通常共享一些模式,而這些模式可以被復(fù)用以合成不同的實例。該研究從生成的角度對共同特征進行了新的定義,并提出 FastDFKD 來捕獲共同特征,以便通過元學(xué)習(xí)過程進行快速合成。

          共同特征

          作為快速無數(shù)據(jù)訓(xùn)練的關(guān)鍵步驟,需要給共同特征一個明確的定義,以構(gòu)建用于網(wǎng)絡(luò)訓(xùn)練的可優(yōu)化目標。如圖 2 (b) 所示,一種簡單的復(fù)用策略是順序特征復(fù)用,其中在先前合成中學(xué)得的特征直接用作初始化以制作新樣本。然而,這種簡單的方案存在一些問題,因為學(xué)得的特征僅來自單個數(shù)據(jù)點,可能并不總是可用于其他樣本。

          為了解決這個問題,該研究從生成的角度為共同特征創(chuàng)建了一個更自然的定義。首先考慮一個生成網(wǎng)絡(luò) G(z;θ),其中 z 為潛碼(latent code),θ是可訓(xùn)練參數(shù)。對于每個樣本 x_i ∈ D’ ,都可以找到一個潛碼 z_i 來生成 x_i = G(z_i ; θ)。生成器描述了不同樣本 x_i 的生成過程。在某種程度上,一組樣本之間是否存在共同特征 D’ = {x_1, x_2, ..., x_N } 通常與不同數(shù)據(jù)實例的相似度高度相關(guān),這意味著如果能找到最優(yōu)參數(shù) θ 使得不同樣本的潛碼 z = {z_1, z_2, ..., z_N } 在潛在空間中接近,那么生成器就可以隱式地捕獲共同特征?;诖?,該研究發(fā)現(xiàn)可以通過解決以下問題來學(xué)習(xí)共同特征:


          上式 (3) 中 d_z 和 d_x 分別代表潛在空間和輸入空間中的距離指標。上述優(yōu)化旨在為數(shù)據(jù)集 D’找到一種生成過程,其潛在空間中的 z 距離盡可能的小,借助學(xué)得的共同特征和潛碼 z 就可以有效獲得多種樣本。

          然而在無數(shù)據(jù)環(huán)境中,合成數(shù)據(jù)集 D’在合成完成之前還不可用。因此,該研究用 DFKD 的逆向損失(inversion loss)L 替換式子 (3) 中第二項的 d_x,這就形成了用于共同特征學(xué)習(xí)的無數(shù)據(jù)目標:


          元生成器

          上述式子 (4) 的優(yōu)化具有挑戰(zhàn)性,因為它需要使用單個生成網(wǎng)絡(luò)生成完整的數(shù)據(jù)集 D’,其中包括許多不可復(fù)用的特征。為此,該研究提出訓(xùn)練一個只包含共同特征的生成器,并在數(shù)據(jù)合成過程中動態(tài)合成其他缺失的特征,如圖 2 (c) 所示。

          具體來說,該研究用共同特征學(xué)習(xí)的目標來訓(xùn)練一個輕量級生成器,該生成器可以適應(yīng)為在 k 步內(nèi)合成不同的實例,表述為元學(xué)習(xí)問題的形式:?


          其中是元學(xué)習(xí)的內(nèi)循環(huán)(inner loop),它指的是從用于 x_i 合成的和潛碼初始化的一種 k 步優(yōu)化。內(nèi)循環(huán)可以以如下形式展開:


          值得注意的是,式子 (5) 與式子 (4) 中的共同特征損失起著相似的作用。內(nèi)循環(huán)(即 k 步自適應(yīng))旨在通過顯式優(yōu)化式子 (4) 的第二項來學(xué)習(xí)用于合成的生成器。

          另一方面,外循環(huán)(outer loop)試圖通過隱式優(yōu)化式子 (4) 的第一項來使不同樣本均能在 k 步優(yōu)化中可達。優(yōu)化方程 (6) 會自然地形成一個元學(xué)習(xí)問題,其中要用到初始化來實現(xiàn)快速適應(yīng)。經(jīng)過 k 步梯度下降后,該研究在損失函數(shù) L_i 的指導(dǎo)下得到一組新的參數(shù),梯度是:


          其中代表使用等式(6)k 步自適應(yīng)得到的優(yōu)化結(jié)果,代表損失 L_i 指導(dǎo)下的合成結(jié)果。


          但是,請注意,公式 6 中的 k-step 自適應(yīng)涉及 k 個梯度更新:


          其中 g_k 是指在方程 6 的第 k 步計算的梯度,這將高階梯度引入到生成器訓(xùn)練中,使的反向傳播非常低效。受元學(xué)習(xí)先前工作的啟發(fā),該研究應(yīng)用一階近似來進一步加速梯度計算,將 3 中的高階梯度視為常數(shù)并替換,在這種情況下,方程 7 中的梯度計算只涉及一階梯度,可以簡化為:



          一階近似直接使用在內(nèi)循環(huán)中的自適應(yīng)生成器上計算的梯度來更新元生成器。此外,通過使用自適應(yīng)生成器和元生成器之間的參數(shù)差異來逼近方程 9 中的梯度,可以實現(xiàn)更有效的梯度近似,這進一步將方程 9 簡化為:


          綜上所述,可以對元生成器進行如下優(yōu)化:


          算法 1 分為三個階段:用于數(shù)據(jù)合成的 k-step 適應(yīng);用于通用特征學(xué)習(xí)的元學(xué)習(xí) step;通過優(yōu)化 KL 散度來更新學(xué)生模型的的步驟如下:



          實驗

          基線:實驗比較了兩種 DFKD 方法:(1)和生成方法訓(xùn)練合成的生成模型進行比較,包括 DAFL、ZSKT、DFQ 和 Generative DFD(2)與分批(batch-by-batch)方式制作遷移集的非生成方法比較,包括 DeepInv 和 CMI。

          CIFAR-10 和 CIFAR-100 分類結(jié)果。在 CIFAR-10 和 CIFAR-100 數(shù)據(jù)集上獲得的學(xué)生模型準確率如表 1 所示。在表中,基線「Teacher」、「Student」和「KD」使用原始訓(xùn)練數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),不需要數(shù)據(jù)合成。


          如表 1 所示,生成方法通常比 DeepInv 和 CMI 等非生成方法快 10 倍,因為生成方法只需要訓(xùn)練一個生成器進行合成就可以了。然而,由于生成網(wǎng)絡(luò)的容量有限,我們發(fā)現(xiàn)數(shù)據(jù)集從 CIFAR-10 增加到 CIFAR-100,生成方法的性能趨于下降。相比之下,非生成式通常比生成式更靈活,因此更適用于不同的任務(wù)。

          與非生成方法一樣,F(xiàn)astDFKD 還可以優(yōu)化用于數(shù)據(jù)合成的小批量。如表 1 所示,5-step FastDFKD,即 Fast_5,與現(xiàn)有的生成方法相比,可以實現(xiàn) 10 倍的加速,與非生成方法相比,甚至可以達到 100 倍以上的加速。

          ImageNet:為了驗證 FastDFKD 的有效性,該研究在更具挑戰(zhàn)性的數(shù)據(jù)集(即 ImageNet)上進行了評估。ImageNet 顯然比 CIFAR 復(fù)雜得多,因此無數(shù)據(jù)訓(xùn)練要耗時得多。結(jié)果如表 2 所示:相比之下,F(xiàn)astDFKD(Fast_50)只需要 6.28 小時就能進行圖像合成,并保持了與現(xiàn)有方法相當?shù)男阅堋?/span>


          在分割任務(wù)中,該研究僅使用特征正則化損失和對抗性損失進行數(shù)據(jù)合成。學(xué)生模型的 mIoU,以及數(shù)據(jù)量和合成時間,如表 3 所示:相比之下,F(xiàn)astDFKD 僅在 0.82 小時內(nèi)成功合成了一個訓(xùn)練集,這比 DAFL(3.99 小時)和 DFAD(6.0 小時)高效得多。


          Few-step 合成:如前所述,F(xiàn)astDFKD 只需幾步即可實現(xiàn)高效的數(shù)據(jù)合成。下表比較了 FastDFKD 與現(xiàn)有非生成方法的「fewstep」版本的比較。如表 4 所示,當優(yōu)化 step 減少時,DeepInv 和 CMI 的學(xué)生精度嚴重下降,這意味著現(xiàn)有方法無法僅在 few step 內(nèi)完成數(shù)據(jù)合成。相比之下,F(xiàn)astDFKD 即使只部署了 2-step 優(yōu)化,也能很好地工作,這為 FastDFKD 的有效性提供了強有力的證據(jù)。


          消融研究:表 5 考慮了圖 2 中的三種復(fù)用策略:1)沒有特征復(fù)用;2)序列特征復(fù)用;3)提議共同特征復(fù)用,結(jié)果如下:


          可視化:在 ImageNet 上的合成結(jié)果如圖 3 所示,其中所有樣本都是通過在現(xiàn)有的 ResNet50 分類器上部署 50-step FastDFKD 獲得的。與現(xiàn)有方法相比,F(xiàn)astDFKD 可以在幾個步驟內(nèi)合成出合理的樣本。


          編輯:王菁

          校對:楊學(xué)俊


          瀏覽 25
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  秋霞福利视频 | 国产精品三区视频 | 黄色网在线| 深爱五月丁香婷婷 | 91在线观看欧美日韩 |