婷婷色婷婷,777777国产7777777,超碰0374在线观看,成人网站免费在线观看,色情视频免费观看,人妻在线中文字幕,99自拍视频,熟女熟妇人妻一区二区三区

↓↓↓點(diǎn)擊關(guān)注，回復(fù)資料，10個(gè)G的驚喜

來自：專知

華南師范大學(xué)等《知識(shí)蒸餾》最新綜述論文

高性能的深度學(xué)習(xí)網(wǎng)絡(luò)通常是計(jì)算型和參數(shù)密集型的，難以應(yīng)用于資源受限的邊緣設(shè)備. 為了能夠在低資源設(shè)備上運(yùn)行深度學(xué)習(xí)模型，需要研發(fā)高效的小規(guī)模網(wǎng)絡(luò). 知識(shí)蒸餾是獲取高效小規(guī)模網(wǎng)絡(luò)的一種新興方法，其主要思想是將學(xué)習(xí)能力強(qiáng)的復(fù)雜教師模型中的“知識(shí)”遷移到簡單的學(xué)生模型中. 同時(shí)，它通過神經(jīng)網(wǎng)絡(luò)的互學(xué)習(xí)、自學(xué)習(xí)等優(yōu)化策略和無標(biāo)簽、跨模態(tài)等數(shù)據(jù)資源對(duì)模型的性能增強(qiáng)也具有顯著的效果. 基于在模型壓縮和模型增強(qiáng)上的優(yōu)越特性，知識(shí)蒸餾已成為深度學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn)和重點(diǎn).?本文從基礎(chǔ)知識(shí),理論方法和應(yīng)用等方面對(duì)近些年知識(shí)蒸餾的研究展開全面的調(diào)查，具體包含以下內(nèi)容：(1)回顧了知識(shí)蒸餾的背景知識(shí)，包括它的由來和核心思想；(2)解釋知識(shí)蒸餾的作用機(jī)制；(3)歸納知識(shí)蒸餾中知識(shí)的不同形式，分為輸出特征知識(shí)、中間特征知識(shí)、關(guān)系特征知識(shí)和結(jié)構(gòu)特征知識(shí)；(4)詳細(xì)分析和對(duì)比了知識(shí)蒸餾的各種關(guān)鍵方法，包括知識(shí)合并、多教師學(xué)習(xí)、教師助理、跨模態(tài)蒸餾、相互蒸餾、終身蒸餾以及自蒸餾；(5)介紹知識(shí)蒸餾與其它技術(shù)融合的相關(guān)方法，包括生成對(duì)抗網(wǎng)絡(luò)、神經(jīng)架構(gòu)搜索、強(qiáng)化學(xué)習(xí)、圖卷積、其它壓縮技術(shù)、自動(dòng)編碼器、集成學(xué)習(xí)以及聯(lián)邦學(xué)習(xí)；(6)對(duì)知識(shí)蒸餾在多個(gè)不同領(lǐng)域下的應(yīng)用場景進(jìn)行了詳細(xì)的闡述；(7)討論了知識(shí)蒸餾存在的挑戰(zhàn)和未來的研究方向.

https://cjc.ict.ac.cn/online/onlinepaper/HZH315.pdf

1. 引言

深度學(xué)習(xí)由于對(duì)目標(biāo)多樣性變化具有很好的魯棒性，近年來得到廣泛的關(guān)注并取得快速的發(fā)展. 然而性能越好的深度學(xué)習(xí)模型往往需要越多的資源，使其在物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等低資源設(shè)備的應(yīng) 用上受到限制. 因此研究人員開始對(duì)高效的(Efficient)深度學(xué)習(xí)模型展開研究，其目的是使具有高性能的模型能夠滿足低資源設(shè)備的低功耗和實(shí)時(shí)性等要求，同時(shí)盡可能地不降低模型的性能. 當(dāng)前，主要有 5 種方法可以獲得高效的深度學(xué)習(xí)模型：直接手工設(shè)計(jì)輕量級(jí)網(wǎng)絡(luò)模型、剪枝、量化、基于神經(jīng)架構(gòu)搜索(Neural Architecture Search，NAS)[1]的網(wǎng)絡(luò)自動(dòng)化設(shè)計(jì)以及知識(shí)蒸餾(Knowledge Distillation，KD)[2]. 其中，知識(shí)蒸餾作為一種新興的模型壓縮方法，目前已成為深度學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn)和重點(diǎn). 國內(nèi)外許多大學(xué)和研究機(jī)構(gòu)已經(jīng)對(duì)知識(shí)蒸餾展開了深入研究，并且每年在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的國際頂級(jí)會(huì)議和知名期刊中都有關(guān)于知識(shí)蒸餾的文章發(fā)表.??

知識(shí)蒸餾是一種教師-學(xué)生(Teacher-Student)訓(xùn) 練結(jié)構(gòu)，通常是已訓(xùn)練好的教師模型提供知識(shí)，學(xué) 生模型通過蒸餾訓(xùn)練來獲取教師的知識(shí).?它可以以輕微的性能損失為代價(jià)將復(fù)雜教師模型的知識(shí)遷移到簡單的學(xué)生模型中. 在后續(xù)的研究中，學(xué)術(shù)界和工業(yè)界擴(kuò)展了知識(shí)蒸餾的應(yīng)用范疇，提出了利用知識(shí)蒸餾來實(shí)現(xiàn)模型性能的增強(qiáng). 基于此，本文根據(jù) 應(yīng)用場景劃分出基于知識(shí)蒸餾的模型壓縮和模型增強(qiáng)這兩個(gè)技術(shù)方向，即獲得的網(wǎng)絡(luò)模型是否為了應(yīng) 用于資源受限的設(shè)備. 圖 1 給出了這兩種技術(shù)對(duì)比的一個(gè)例子，其中的教師模型都是提前訓(xùn)練好的復(fù) 雜網(wǎng)絡(luò). 模型壓縮和模型增強(qiáng)都是將教師模型的知識(shí)遷移到學(xué)生模型中. 所不同的是，模型壓縮是教師網(wǎng)絡(luò)在相同的帶標(biāo)簽的數(shù)據(jù)集上指導(dǎo)學(xué)生網(wǎng)絡(luò)的訓(xùn)練來獲得簡單而高效的網(wǎng)絡(luò)模型，如左圖的學(xué)生是高效的小規(guī)模網(wǎng)絡(luò). 模型增強(qiáng)則強(qiáng)調(diào)利用其它資源(如無標(biāo)簽或跨模態(tài)的數(shù)據(jù))或知識(shí)蒸餾的優(yōu)化策略(如相互學(xué)習(xí)和自學(xué)習(xí))來提高一個(gè)復(fù)雜學(xué)生模型的性能. 如右圖中，一個(gè)無標(biāo)簽的樣本同時(shí)作為教師和學(xué)生網(wǎng)絡(luò)的輸入，性能強(qiáng)大的教師網(wǎng)絡(luò)通常能預(yù)測出該樣本的標(biāo)簽，然后利用該標(biāo)簽去指導(dǎo)復(fù)雜的學(xué)生網(wǎng)絡(luò)訓(xùn)練.

本文重點(diǎn)收集了近些年在人工智能、機(jī)器學(xué)習(xí) 以及數(shù)據(jù)挖掘等領(lǐng)域的國際頂級(jí)會(huì)議(如 ICCV， ICML，EMNLP，KDD)與重要學(xué)術(shù)期刊(如 PAMI， TOIS，TKDE，TMM)上有關(guān)知識(shí)蒸餾的論文并加以整理、歸納和分析. 據(jù)我們所知，目前國內(nèi)沒有知識(shí)蒸餾相關(guān)的中文綜述，而先前兩篇英文綜述[3,4] 和我們工作相似，但本文進(jìn)一步完善了知識(shí)蒸餾的綜述. 具體地，本文與先前的英文綜述[3,4]至少有以下三點(diǎn)的不同：?

（1）先前的研究都忽略了知識(shí)蒸餾在模型增強(qiáng) 上的應(yīng)用前景.?在本文的研究調(diào)查中，知識(shí)蒸餾不僅可以用于模型壓縮，它還能通過互學(xué)習(xí)和自學(xué)習(xí) 等優(yōu)化策略來提高一個(gè)復(fù)雜模型的性能. 同時(shí)，知識(shí)蒸餾可以利用無標(biāo)簽和跨模態(tài)等數(shù)據(jù)的特征，對(duì) 模型增強(qiáng)也具有顯著的提升效果.?

（2）先前的研究都沒有關(guān)注到結(jié)構(gòu)化特征知識(shí)，而它在知識(shí)架構(gòu)中又是不可或缺的.?某個(gè)結(jié)構(gòu) 上的知識(shí)往往不是單一的，它們是有關(guān)聯(lián)的、多個(gè) 知識(shí)形式組合. 充分利用教師網(wǎng)絡(luò)中的結(jié)構(gòu)化特征知識(shí)對(duì)學(xué)生模型的性能提升是有利的，因此它在近兩年的工作中越發(fā)重要[5,6].?

（3）本文從不同視角給出了基于知識(shí)蒸餾的描述，并提供了更多的知識(shí)介紹.?在知識(shí)蒸餾的方法上，本文增加了知識(shí)合并和教師助理的介紹；在技術(shù)融合的小節(jié)，本文增加了知識(shí)蒸餾與自動(dòng)編碼器、集成學(xué)習(xí)和聯(lián)邦學(xué)習(xí)的技術(shù)融合；在知識(shí)蒸餾的應(yīng) 用進(jìn)展中，本文分別介紹了知識(shí)蒸餾在模型壓縮和模型增強(qiáng)的應(yīng)用，并增加了多模態(tài)數(shù)據(jù)和金融證券的應(yīng)用進(jìn)展；在知識(shí)蒸餾的研究趨勢展望中，本文給出了更多的研究趨勢，特別是介紹了模型增強(qiáng)的應(yīng)用前景.

總的來說，本文在文獻(xiàn)[3,4]基礎(chǔ)上，以不同的視角，提供更加全面的綜述，以便為后續(xù)學(xué)者了解或研究知識(shí)蒸餾提供參考指導(dǎo).

本文組織結(jié)構(gòu)如圖 2 所示. 第 2 節(jié)回顧了知識(shí) 蒸餾的背景知識(shí)，包括它的由來；第 3 節(jié)解釋知識(shí) 蒸餾的作用機(jī)制，即為什么知識(shí)蒸餾是有效的；第 4 節(jié)歸納知識(shí)蒸餾中知識(shí)的不同形式；第 5 節(jié)詳細(xì) 分析了知識(shí)蒸餾的各種方法，其強(qiáng)調(diào)的是知識(shí)遷移的方式；第 6 節(jié)介紹知識(shí)蒸餾與其它技術(shù)融合的相關(guān)方法；第 7 節(jié)歸納知識(shí)蒸餾的應(yīng)用進(jìn)展；第 8 節(jié) 給出了知識(shí)蒸餾的研究趨勢展望. 最后，第 9 節(jié)對(duì) 本文工作進(jìn)行總結(jié).

2. 知識(shí)蒸餾的提出

知識(shí)蒸餾與較早提出的并被廣泛應(yīng)用的一種機(jī) 器學(xué)習(xí)方法的思想較為相似，即遷移學(xué)習(xí)[7]. 知識(shí)蒸餾與遷移學(xué)習(xí)都涉及到知識(shí)的遷移，然而它們有以下四點(diǎn)的不同：

?(1) 數(shù)據(jù)域不同. 知識(shí)蒸餾中的知識(shí)通常是在同一個(gè)目標(biāo)數(shù)據(jù)集上進(jìn)行遷移，而遷移學(xué)習(xí)中的知識(shí)?往往是在不同目標(biāo)的數(shù)據(jù)集上進(jìn)行轉(zhuǎn)移.

(2) 網(wǎng)絡(luò)結(jié)構(gòu)不同. 知識(shí)蒸餾的兩個(gè)網(wǎng)絡(luò)可以是同構(gòu)或者異構(gòu)的，而遷移學(xué)習(xí)通常是在單個(gè)網(wǎng)絡(luò)上利用其它領(lǐng)域的數(shù)據(jù)知識(shí).?

(3) 學(xué)習(xí)方式不同. 遷移學(xué)習(xí)使用其它領(lǐng)域的豐富數(shù)據(jù)的權(quán)重來幫助目標(biāo)數(shù)據(jù)的學(xué)習(xí)，而知識(shí)蒸餾不會(huì)直接使用學(xué)到的權(quán)重.

(4) 目的不同. 知識(shí)蒸餾通常是訓(xùn)練一個(gè)輕量級(jí) 的網(wǎng)絡(luò)來逼近復(fù)雜網(wǎng)絡(luò)的性能，而遷移學(xué)習(xí)是將已經(jīng)學(xué)習(xí)到相關(guān)任務(wù)模型的權(quán)重來解決目標(biāo)數(shù)據(jù)集的樣本不足問題.

3 知識(shí)蒸餾的作用機(jī)制?

Hinton 等人[2]認(rèn)為，學(xué)生模型在知識(shí)蒸餾的過程中通過模仿教師模型輸出類間相似性的“暗知識(shí)” 來提高泛化能力. 軟目標(biāo)攜帶著比硬目標(biāo)更多的泛化信息來防止學(xué)生模型過擬合. 雖然知識(shí)蒸餾已經(jīng) 獲得了廣泛的應(yīng)用，但是學(xué)生模型的性能通常是僅接近于教師模型. 特別地，給定學(xué)生和教師模型相同的大小卻能夠讓學(xué)生模型的性能超越教師模型[12]，性能越差的教師模型反倒教出了更好的學(xué)生模型[13]. 為了更好地理解知識(shí)蒸餾的作用，一些工作從數(shù)學(xué) 或?qū)嶒?yàn)上對(duì)知識(shí)蒸餾的作用機(jī)制進(jìn)行了證明和解釋. 本文歸納為以下幾類：

(1) 軟目標(biāo)為學(xué)生模型提供正則化約束. 這一結(jié)論最早可以追溯到通過貝葉斯優(yōu)化來控制網(wǎng)絡(luò)超參數(shù)的對(duì)比試驗(yàn)[14]，其表明了教師模型的軟目標(biāo)為學(xué)生模型提供了顯著的正則化. 軟目標(biāo)正則化的作用是雙向的，即還能將知識(shí)從較弱的教師模型遷移到能力更強(qiáng)大的學(xué)生模型中[15,16]. 一方面，軟目標(biāo) 通過標(biāo)簽平滑訓(xùn)練提供了正則化[15,16]，標(biāo)簽平滑是通過避免了過分相信訓(xùn)練樣本的真實(shí)標(biāo)簽來防止訓(xùn) 練的過擬合[15]. 另一方面，軟目標(biāo)通過置信度懲罰提供了正則化[12]，置信度懲罰讓學(xué)生模型獲得更好的泛化能力，其主要依賴于教師模型對(duì)正確預(yù)測的信心. 這兩種正則化的形式已經(jīng)在數(shù)學(xué)上得到了證明. 總的來說，軟目標(biāo)通過提供標(biāo)簽平滑和置信度懲罰來對(duì)學(xué)生模型施加正則化訓(xùn)練. 因此，即使沒有強(qiáng)大的教師模型，學(xué)生模型仍然可以通過自己訓(xùn) 練或手動(dòng)設(shè)計(jì)的正則化項(xiàng)得到增強(qiáng)[16].

(2) 軟目標(biāo)為學(xué)生模型提供了“特權(quán)信息” (Privileged Information). “特權(quán)信息”指教師模型提供的解釋、評(píng)論和比較等信息[17]. 教師模型在訓(xùn) 練的過程中將軟目標(biāo)的“暗知識(shí)”遷移到學(xué)生模型中，而學(xué)生模型在測試的過程中并不能使用“暗知識(shí)”. 從這個(gè)角度看，知識(shí)蒸餾是通過軟目標(biāo)來為學(xué)生模型傳遞“特權(quán)信息”.

(3) 軟目標(biāo)引導(dǎo)了學(xué)生模型優(yōu)化的方向. Phuong 等人[18]從模型訓(xùn)練的角度證明了軟目標(biāo)能引導(dǎo)學(xué)生模型的優(yōu)化方向. 同時(shí)，Cheng 等人[19]從數(shù)學(xué)上驗(yàn) 證了軟目標(biāo)使學(xué)生模型比從原始數(shù)據(jù)中進(jìn)行優(yōu)化學(xué) 習(xí)具有更高的學(xué)習(xí)速度和更好的性能.?

4 蒸餾的知識(shí)形式

原始知識(shí)蒸餾(Vanilla Knowledge Distillation)[2] 僅僅是從教師模型輸出的軟目標(biāo)中學(xué)習(xí)出輕量級(jí)的學(xué)生模型. 然而，當(dāng)教師模型變得更深時(shí)，僅僅學(xué) 習(xí)軟目標(biāo)是不夠的. 因此，我們不僅需要獲取教師模型輸出的知識(shí)，還需要學(xué)習(xí)隱含在教師模型中的其它知識(shí)，比如中間特征知識(shí). 本節(jié)總結(jié)了可以使用的知識(shí)形式有輸出特征知識(shí)、中間特征知識(shí)、關(guān) 系特征知識(shí)和結(jié)構(gòu)特征知識(shí). 知識(shí)蒸餾的 4 種知識(shí) 形式的關(guān)系如圖 5 所示. 從學(xué)生解題的角度，這 4 種知識(shí)形式可以形象比喻為：輸出特征知識(shí)提供了解題的答案，中間特征知識(shí)提供了解題的過程，關(guān) 系特征知識(shí)提供了解題的方法，結(jié)構(gòu)特征知識(shí)則提供了完整的知識(shí)體系.

5 知識(shí)蒸餾的方法?

本節(jié)從知識(shí)利用的方式，歸納和分析知識(shí)蒸餾的主要方法，包括知識(shí)合并、多教師學(xué)習(xí)、教師助理、跨模態(tài)蒸餾、相互蒸餾、終身蒸餾以及自蒸餾.

6 知識(shí)蒸餾與其它技術(shù)的融合?

近幾年，研究人員發(fā)現(xiàn)知識(shí)蒸餾結(jié)合其它主流技術(shù)通常能夠提高其性能. 目前這些主流技術(shù)主要有：生成對(duì)抗網(wǎng)絡(luò)、神經(jīng)架構(gòu)搜索、強(qiáng)化學(xué)習(xí)、圖卷積、其它壓縮技術(shù)、自動(dòng)編碼器、集成學(xué)習(xí)以及聯(lián)邦學(xué)習(xí).

7 知識(shí)蒸餾的應(yīng)用進(jìn)展?

知識(shí)蒸餾的最初目的是壓縮深度學(xué)習(xí)網(wǎng)絡(luò)模型，這在資源受限的終端設(shè)備上具有廣泛的應(yīng)用. 但隨著研究的新進(jìn)展，知識(shí)蒸餾不僅可以用于壓縮模型，還可以通過神經(jīng)網(wǎng)絡(luò)的互學(xué)習(xí)、自學(xué)習(xí)等優(yōu) 化策略和無標(biāo)簽、跨模態(tài)等數(shù)據(jù)資源對(duì)模型的性能增強(qiáng)也具有顯著的提升效果. 目前知識(shí)蒸餾的主要應(yīng)用領(lǐng)域有計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別、推薦系統(tǒng)、信息安全、多模態(tài)數(shù)據(jù)和金融證券. 知識(shí)蒸餾在計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別和推薦系統(tǒng)上的應(yīng)用根據(jù)其目的的不同，可以分為模型壓縮和模型增強(qiáng). 模型壓縮是為了獲得簡單而高效的網(wǎng)絡(luò)模型，以方便部署于資源受限的設(shè)備. 而模型增強(qiáng)通常是利用其它資源(如無標(biāo)簽或跨模態(tài) 的數(shù)據(jù))來獲取復(fù)雜的高性能網(wǎng)絡(luò).??

8 知識(shí)蒸餾的研究趨勢展望

知識(shí)蒸餾是一個(gè)新興的研究領(lǐng)域，它仍有許多值得深入探索和亟待解決的問題. 在這一節(jié)中，我們提出一些值得進(jìn)一步深入探討的研究點(diǎn)，也是我們今后需要解決完善的研究方向.

(1) 如何確定何種知識(shí)是最佳的.?知識(shí)蒸餾中的知識(shí)是一個(gè)抽象的概念，網(wǎng)絡(luò)參數(shù)，網(wǎng)絡(luò)的輸出和網(wǎng)絡(luò)的中間特征等都可以理解為知識(shí). 但是何種知識(shí)是最佳的，或者哪些知識(shí)以互補(bǔ)的方式能成為最佳的通用知識(shí)表示？為了回答這個(gè)問題，我們需要了解每種知識(shí)以及不同種類組合知識(shí)的作用. 比如說，基于特征的知識(shí)通常用于模仿教師特征產(chǎn)生的過程，基于關(guān)系的知識(shí)常用于捕獲不同樣本之間或網(wǎng)絡(luò)層之間特征的關(guān)系. 當(dāng)教師和學(xué)生的模型容量(“代溝”)較小的時(shí)候，學(xué)生只模仿教師的軟目標(biāo)就可以獲得有競爭力的性能. 而當(dāng)師生的“代溝” 較大時(shí)，需要將多種蒸餾的知識(shí)形式和方法結(jié)合來表示教師模型. 雖然能明白多種知識(shí)的組合方式通常能提高學(xué)生網(wǎng)絡(luò)的性能，但是使用哪些知識(shí)形式，方法和技術(shù)的組合是最優(yōu)的，還尚無定論.

(2) 如何確定何處的知識(shí)是最佳的.?一些工作隨機(jī)選擇中間網(wǎng)絡(luò)的某層特征作為知識(shí)，比如 FitNets[27]將教師前幾層的網(wǎng)絡(luò)特征作為特征蒸餾的位置. 然而他們都沒有提供一個(gè)理由，即為什么能夠成為代表性知識(shí). 這主要是由于教師和學(xué)生模型結(jié)構(gòu)的不一致導(dǎo)致的，即教師模型通常比學(xué)生模型擁有更多的網(wǎng)絡(luò)層. 因此，需要篩選教師模型中最具有代表性的特征. 然而教師模型中哪些特征層是最具有代表性的？這也是一個(gè)未解決的問題. 在基于關(guān)系的知識(shí)蒸餾中，也一樣無法解釋該選擇哪些層的關(guān)系知識(shí)作為學(xué)生模仿的對(duì)象. 如 FSP 矩陣[31] 隨機(jī)選擇教師模型的兩個(gè)網(wǎng)絡(luò)層作為關(guān)系蒸餾的位置. 關(guān)系知識(shí)蒸餾是容量無關(guān)的，即關(guān)系蒸餾僅僅需要獲取的是網(wǎng)絡(luò)層間或樣本間的關(guān)系知識(shí). 因此這不是師生間的“代溝”問題，而是歸咎于知識(shí)其實(shí)是一個(gè)“黑盒”問題.

(3) 如何定義最佳的師生結(jié)構(gòu).?知識(shí)蒸餾傳遞的并不是參數(shù)，而是抽取到的知識(shí). 因此知識(shí)蒸餾是網(wǎng)絡(luò)架構(gòu)無關(guān)的，即任何學(xué)生都可以向任何教師學(xué)習(xí). 通常，容量更大的學(xué)生模型可以學(xué)習(xí)更多的知識(shí)，但復(fù)雜度過大會(huì)延長推理的時(shí)間. 容量更大的教師模型隱含著較多的知識(shí)和更強(qiáng)的能力，但是并非能力越強(qiáng)的教師就能產(chǎn)生更佳的學(xué)生模型[13]. 同時(shí)，每一個(gè)教師模型都有一個(gè)最強(qiáng)學(xué)生結(jié)構(gòu)[100]. 因此，我們只能在給定的教師模型的前提下，找到最佳的學(xué)生模型. 然而在未指定教師模型的情況下，目前還無法確定最佳的學(xué)生模型.?

(4) 如何衡量師生間特征的接近程度.?知識(shí)蒸餾是要將教師網(wǎng)絡(luò)中的知識(shí)遷移到學(xué)生模型中，遷移效果的好壞最終可以通過學(xué)生網(wǎng)絡(luò)性能來體現(xiàn). 然而在網(wǎng)絡(luò)訓(xùn)練的過程中，只能通過損失函數(shù)去判斷教師和學(xué)生之間特征的接近程度. 因此需要提前設(shè)計(jì)好知識(shí)蒸餾的損失函數(shù)，如 KL 散度、均方誤差(Mean Squared Error，MSE)和余弦相似性. 而損失函數(shù)的選取受算法和離群點(diǎn)等因素的影響，并且，不同損失函數(shù)的作用范圍是不一樣的. 例如，通過 KL 散度衡量的兩個(gè)隨機(jī)分布上的相似度是非對(duì)稱的. 余弦相似性強(qiáng)調(diào)兩個(gè)向量的特征在方向上的差異，卻沒有考慮向量大小. MSE 在高維特征中的作用不明顯，且很容易被隨機(jī)特征混淆[4]. 因此，衡量師生間特征接近程度的方法是多樣化的，我們需要根據(jù)特定的問題和場景選取最合適的損失函數(shù).?

(5) 蒸餾的知識(shí)形式、方法和融合技術(shù)還需要深入探索.?原始知識(shí)蒸餾將類間的關(guān)系信息作為知識(shí)，但這在“代溝”較大的師生網(wǎng)絡(luò)中效果不佳. 為了解決這一問題，后續(xù)的研究者尋找不同形式的“知識(shí)”來充實(shí)知識(shí)的內(nèi)涵，如關(guān)系知識(shí). 其知識(shí)的來源應(yīng)該是多樣化的，可以來自于單個(gè)或多個(gè)的樣本和網(wǎng)絡(luò)本身. 同樣，知識(shí)蒸餾的方法和融合技術(shù)也能緩解甚至解決師生間的“代溝”問題，它們強(qiáng)調(diào) 充分地利用知識(shí)來提高模型的表征能力. 新的知識(shí)形式、方法和融合技術(shù)的發(fā)現(xiàn)可能會(huì)伴隨著新的應(yīng)用場景，這將豐富知識(shí)蒸餾的理論框架和實(shí)踐的應(yīng)用.?

(6) 模型壓縮和模型增強(qiáng)的深度融合.?模型壓縮是將強(qiáng)大的復(fù)雜教師模型中的“知識(shí)”遷移到簡單的學(xué)生模型中以滿足低資源設(shè)備的應(yīng)用要求，而模型增強(qiáng)用于獲取高性能的復(fù)雜網(wǎng)絡(luò). 模型壓縮和模型增強(qiáng)的融合是將教師模型中的“特權(quán)信息”遷移或繼續(xù)強(qiáng)化輕量級(jí)學(xué)生模型的性能. 例如，Liu 等人[206]通過從文本翻譯模型中遷移“特權(quán)信息”來改進(jìn)輕量級(jí)的語音翻譯模型. 在未來的工作中，甚至能將無標(biāo)簽或其它領(lǐng)域數(shù)據(jù)的“特權(quán)信息”來繼續(xù) 加強(qiáng)一個(gè)輕量級(jí)學(xué)生模型的性能.?

(7) 知識(shí)蒸餾在數(shù)據(jù)樣本增強(qiáng)上的應(yīng)用.?深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng)型的，往往需要大規(guī)模的數(shù)據(jù)集才能避免過度擬合. 由于隱私和法律等原因，在一些領(lǐng)域上，通常無法獲取大規(guī)模的原始數(shù)據(jù)集，如醫(yī) 療數(shù)據(jù). 知識(shí)蒸餾需要足夠的數(shù)據(jù)，才能將教師網(wǎng) 絡(luò)中的知識(shí)遷移到學(xué)生網(wǎng)絡(luò)中. 換句話說，數(shù)據(jù)是連接教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的橋梁. 先前的研究已經(jīng) 證明了知識(shí)蒸餾在數(shù)據(jù)樣本增強(qiáng)上的廣闊應(yīng)用前景，如通過知識(shí)蒸餾產(chǎn)生原始數(shù)據(jù)集的近似樣本[207]、使用其它相關(guān)數(shù)據(jù)的知識(shí)來減輕對(duì)目標(biāo)數(shù)據(jù)集的依賴[208]以及教師和學(xué)生間部分網(wǎng)絡(luò)的共同訓(xùn)練來提高具有小樣本學(xué)生網(wǎng)絡(luò)的性能[114]. 未來的工作需要繼續(xù)探索知識(shí)蒸餾在數(shù)據(jù)樣本增強(qiáng)上的應(yīng)用場景和高效的蒸餾方法來實(shí)現(xiàn)小樣本學(xué)習(xí)(Few-Shot Learning)或零樣本學(xué)習(xí)(zero-shot learning).?

(8) 知識(shí)蒸餾在數(shù)據(jù)標(biāo)簽上的應(yīng)用. 給數(shù)據(jù)上標(biāo)簽需要特定領(lǐng)域的專業(yè)知識(shí)、大量的時(shí)間和成本. 可以利用知識(shí)蒸餾減少標(biāo)注訓(xùn)練數(shù)據(jù)的麻煩，解決數(shù)據(jù)標(biāo)簽的問題. 如果該領(lǐng)域存在著強(qiáng)大的教師網(wǎng) 絡(luò)，能通過知識(shí)蒸餾給無標(biāo)簽的數(shù)據(jù)增加注釋. 具體地，教師網(wǎng)絡(luò)對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測，并使用它們的預(yù)測信息充當(dāng)學(xué)生模型數(shù)據(jù)的自動(dòng)標(biāo)注[209]. 以無標(biāo)簽數(shù)據(jù)作為輸入的教師網(wǎng)絡(luò)會(huì)產(chǎn)生軟標(biāo)簽，這恰好能為學(xué)生網(wǎng)絡(luò)提供學(xué)習(xí)的指導(dǎo)信息. 即使該領(lǐng)域沒有強(qiáng)大的教師網(wǎng)絡(luò)，也可以通過跨模態(tài)知識(shí) 蒸餾，將其它領(lǐng)域的知識(shí)充當(dāng)無標(biāo)簽數(shù)據(jù)的監(jiān)督信號(hào)[66]. 因此，知識(shí)蒸餾能夠減少對(duì)數(shù)據(jù)標(biāo)簽的依賴，需要繼續(xù)研究它在半監(jiān)督或無監(jiān)督學(xué)習(xí)上的應(yīng)用.

AI黑科技！從此只看高清視頻
樸實(shí)無華，萬字統(tǒng)計(jì)學(xué)知識(shí)大梳理
機(jī)器學(xué)習(xí)理論基礎(chǔ)到底有多可靠？
人工智能博士：思維修煉指南
“卷積”其實(shí)沒那么難以理解

【深度學(xué)習(xí)】知識(shí)蒸餾最新2022研究綜述