<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

ACL 2022丨香港大學(xué)&華為諾亞方舟新工作：生成式預(yù)訓(xùn)練語(yǔ)言模型的量化壓縮

視學(xué)算法

共 3001字，需瀏覽 7分鐘

·

2022-03-23 11:15

點(diǎn)擊上方“視學(xué)算法”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

近日，香港大學(xué)與華為諾亞方舟實(shí)驗(yàn)室在 ACL 2022 上聯(lián)合發(fā)表了一篇工作，針對(duì)現(xiàn)有大規(guī)模生成式預(yù)訓(xùn)練語(yǔ)言模型的壓縮需求，提出了新的量化壓縮解決方案，并取得了出色的進(jìn)步：分別在 GPT-2 與 BART 上實(shí)現(xiàn)了 14.4 倍與 13.4 倍的壓縮率。他們將量化的 GPT 模型

與 BART 模型分別命名為「QuantGPT」與「QuantBART」。

作者丨陶超凡

生成式預(yù)訓(xùn)練語(yǔ)言模型?(pre-trained language models, PLM) 的規(guī)模不斷擴(kuò)大，極大地增加了對(duì)模型壓縮的需求。盡管有各種壓縮 BERT 或其變體的方法，壓縮生成式 PLM （例如GPT）的嘗試很少，潛在的困難仍不清楚。

在本文中，我們通過量化壓縮生成 PLM。我們發(fā)現(xiàn)以前的量化方法在生成任務(wù)上失敗，是由于模型容量減少導(dǎo)致的詞嵌入同質(zhì)化，以及不同模塊的權(quán)重分布差異。

相應(yīng)地，我們提出了一種令牌級(jí)的對(duì)比蒸餾損失函數(shù)來學(xué)習(xí)可區(qū)分的詞嵌入，以及模塊級(jí)動(dòng)態(tài)適應(yīng)的量化器，以使量化器適應(yīng)不同的模塊。

各種任務(wù)的實(shí)證結(jié)果表明我們提出的方法優(yōu)于最先進(jìn)的壓縮生成式 PLM 方法的優(yōu)勢(shì)明顯。憑借與全精度模型相當(dāng)的性能，我們?cè)?GPT-2 和 BART 上分別實(shí)現(xiàn)了 14.4倍和 13.4倍的壓縮率。

我們把提出的量化GPT模型、BART模型分別取名「QuantGPT」與「QuantBART」。

論文地址:?https://arxiv.org/abs/2203.10705

代碼和模型即將開源。

1

Motivation

基于 Transformer 的生成式預(yù)訓(xùn)練語(yǔ)言模型表現(xiàn)出強(qiáng)大的多任務(wù)和小樣本學(xué)習(xí)能力，并在各種任務(wù)上取得顯著成績(jī)。但是，由于大量參數(shù)以及逐個(gè)令牌（token）的生成過程，它們?cè)谟?jì)算和內(nèi)存方面通常都很昂貴。目前學(xué)術(shù)界提出了許多方法來壓縮 PLM，但主要集中在理解任務(wù)上，比如使用 BERT 進(jìn)行句子分類。

圖1：不同量化方法的2bit GPT-2在PTB數(shù)據(jù)集的語(yǔ)言建模表現(xiàn)

在本文中，我們首先從量化角度來探索壓縮生成式PLM。我們發(fā)現(xiàn)，將以前為 BERT 或計(jì)算機(jī)視覺任務(wù)設(shè)計(jì)的量化方法直接應(yīng)用于生成式PLM 會(huì)導(dǎo)致性能不佳。如圖1所示，隨著權(quán)重比特?cái)?shù)的減小，模型的性能急劇下降。這促使我們?nèi)パ芯苛炕墒絇LM的難點(diǎn)，并提出相應(yīng)的解決策略。

2

生成式語(yǔ)言量化模型的難點(diǎn)

2.1難點(diǎn)1：詞嵌入同質(zhì)化 (Homogeneous Word Embedding)

圖2：在 PTB 數(shù)據(jù)集上訓(xùn)練的全精度和不同 2bit的最高頻率的 500 個(gè)詞嵌入的 T-SNE 可視化。不同量化方法的詞嵌入顯示出不同程度的同質(zhì)化。

可以看出，全精度模型的詞嵌入是分散可區(qū)分的，而之前的量化方法 PACT、LSQ 和 LAQ 學(xué)習(xí)的是同質(zhì)的詞嵌入，是聚集的且不易區(qū)分，特別是對(duì)于 PACT 和 LSQ?？紤]BERT做句子分類問題，量化后的BERT只需要讓句子整體的表征是準(zhǔn)確的。但是對(duì)于GPT這種生成問題，GPT 以從左到右的順序計(jì)算每個(gè)令牌，并且前一個(gè)令牌中產(chǎn)生的量化誤差將傳遞給未來的令牌。所以量化GPT模型需要盡可能對(duì)每個(gè)量化后的詞嵌入都學(xué)習(xí)準(zhǔn)確。文章附錄提供了不同量化方法的生成Demo，同質(zhì)化的詞嵌入會(huì)導(dǎo)致模型生成重復(fù)且無邏輯的句子。

2.2難點(diǎn)2：不同模塊的權(quán)重分布差異 (Varied Distribution of Weights)

這里簡(jiǎn)單補(bǔ)充一下量化的背景知識(shí)。對(duì)一個(gè)模型的權(quán)重w,我們要學(xué)習(xí)一個(gè)量化器Q( )把全精度權(quán)重w量化為低比特的權(quán)重。其中α是量化器的一個(gè)參數(shù)，用于把權(quán)重的數(shù)值范圍限定在[-α，α]。α的選取對(duì)量化器的效果是重要的。過小的α會(huì)導(dǎo)致很大一部分的權(quán)重被估計(jì)成-α或者α，損失了這些權(quán)重的全精度信息；而過大的α會(huì)導(dǎo)致過多的全精度數(shù)值被考慮到量化器的有效范圍，導(dǎo)致量化器的量化間隔(quantization level)較大，量化的結(jié)果不準(zhǔn)。

圖3：在一個(gè)預(yù)訓(xùn)練的GPT中，同一個(gè)transformer block里兩個(gè)不同模塊的權(quán)重分布。豎線是PACT和我們方法學(xué)出的量化器的clipping factor α

從圖3可以看出，不同模塊的權(quán)重分布差異很大，這對(duì)α的估計(jì)造成了較大的挑戰(zhàn)。

3

方法

3.1令牌級(jí)對(duì)比學(xué)習(xí)

我們采取了全精度模型作為老師，量化模型作為學(xué)生的蒸餾學(xué)習(xí)框架。為了讓學(xué)生模型可以在令牌粒度上學(xué)習(xí)到老師模型的信息。我們?cè)O(shè)計(jì)了令牌級(jí)對(duì)比學(xué)習(xí)：在一個(gè)句子里，同一個(gè)令牌在老師模型和學(xué)生模型中產(chǎn)生的表征應(yīng)該被拉近，視為一對(duì)正樣本；而同一個(gè)句子里不同令牌的表征視為負(fù)樣本，應(yīng)該被拉遠(yuǎn)。為了讓學(xué)習(xí)模型產(chǎn)生的令牌表征平滑過渡，我們?cè)O(shè)計(jì)了一個(gè)memory bank存儲(chǔ)詞表里每個(gè)令牌的表征，用于對(duì)比學(xué)習(xí)中負(fù)樣本的計(jì)算。

具體地，對(duì)于一個(gè)長(zhǎng)度為n的句子，令牌級(jí)的對(duì)比學(xué)習(xí)為：

其中計(jì)算了相似度，表示老師模型產(chǎn)生的令牌特征，是學(xué)生模型產(chǎn)生的令牌特征的滑動(dòng)平均版本（最后一個(gè)decoder的輸出再經(jīng)過一個(gè)線性映射）。的更新方式為

3.2 模塊級(jí)動(dòng)態(tài)適應(yīng)的量化器

我們根據(jù)每個(gè)模塊權(quán)重的統(tǒng)計(jì)數(shù)據(jù)提出了一種簡(jiǎn)單而有效的動(dòng)態(tài)縮放。具體來說，我們不是直接對(duì)所有模塊初始化一個(gè)相同的clipping factor α，而是轉(zhuǎn)而學(xué)習(xí)一個(gè)新的縮放因子 γ，它與平均權(quán)重大小相乘獲得clipping factorγ被初始化為1。這不僅簡(jiǎn)化了初始化，而且確保了初始的α不會(huì)遠(yuǎn)離全精度權(quán)重，無論不同模塊的權(quán)重分布的差異有多大。我們進(jìn)而推出了這個(gè)新的縮放因子γ的更新公式。

這個(gè)更新公式不僅考慮到了在[-α，α]范圍內(nèi)的權(quán)重對(duì)的影響，也考慮在[-α，α]范圍外權(quán)重的影響。結(jié)果證明這樣學(xué)習(xí)clipping factor,比之前工作中更新時(shí)只考慮[-α，α]范圍外權(quán)重的效果更好。

4

Performance

首先，我們?cè)贕PT-2上分別做了PTB，wikitext-2,wikitext-103數(shù)據(jù)集的語(yǔ)言建模任務(wù)和Persona-Chat數(shù)據(jù)集的對(duì)話理解任務(wù)。我們的方法QuantGPT在生成文本預(yù)訓(xùn)練模型的量化任務(wù)上效果提升明顯。其中W-E-A表示權(quán)重-嵌入層-激活值的量化比特?cái)?shù)。

我們也和最新的GPT-2壓縮方案對(duì)比，包括KnGPT2（基于張量分解），DistilGPT2, LightPAFF（基于蒸餾），我們的方法QuantGPT在模型大小和效果上優(yōu)勢(shì)明顯。

除了考慮decoder-only的生成模型GPT，我們也考慮了encoder-decoder的生成模型BART。下表中看出，分別在8/4/2bit的實(shí)驗(yàn)設(shè)置下，我們模型QuantBART在摘要任務(wù)上提升明顯。

5

Conclusion

本文研究了預(yù)訓(xùn)練語(yǔ)言生成模型的低比特量化。我們發(fā)現(xiàn)量化生成預(yù)訓(xùn)練語(yǔ)言生成模型的困難在于同質(zhì)化的詞嵌入和不同模塊的權(quán)重分布差異很大。為了緩解這兩個(gè)問題，我們提出了令牌級(jí)對(duì)比學(xué)習(xí)來學(xué)習(xí)可區(qū)分的詞嵌入，以及一個(gè)模塊粒度動(dòng)態(tài)縮放的量化器，以適應(yīng)不同模塊的權(quán)重分布。語(yǔ)言建模、話語(yǔ)理解和摘要的實(shí)驗(yàn)證明了我們提出的方法的有效性。

我們希望這個(gè)工作能夠?qū)ι扇蝿?wù)的壓縮有啟發(fā)作用，也可以嘗試把這個(gè)工作提出的量化器用在判別任務(wù)的壓縮里。

點(diǎn)個(gè)在看 paper不斷！

瀏覽 55

點(diǎn)贊

收藏

分享

舉報(bào)

評(píng)論

圖片

表情

一文了解預(yù)訓(xùn)練語(yǔ)言模型！

博文視點(diǎn)Broadview

模型量化: 訓(xùn)練時(shí)噪音帶來的極致壓縮

極市平臺(tái)

PERT基于 BERT 的預(yù)訓(xùn)練語(yǔ)言模型

在自然語(yǔ)言處理領(lǐng)域中，預(yù)訓(xùn)練語(yǔ)言模型（Pre-trainedLanguageModels，PLMs）已成為非常重要的基礎(chǔ)技術(shù)。在近兩年，哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布了多種中文預(yù)訓(xùn)練模型資源以及相關(guān)配套工具

PERT基于 BERT 的預(yù)訓(xùn)練語(yǔ)言模型

在自然語(yǔ)言處理領(lǐng)域中，預(yù)訓(xùn)練語(yǔ)言模型（Pre-trained Language Models，PLM

鵬程·盤古α中文預(yù)訓(xùn)練語(yǔ)言模型

鵬程·盤古α是業(yè)界首個(gè)2000億參數(shù)以中文為核心的預(yù)訓(xùn)練生成語(yǔ)言模型，目前開源了兩個(gè)版本：鵬程·盤古

鵬程·盤古α中文預(yù)訓(xùn)練語(yǔ)言模型

鵬程·盤古α是業(yè)界首個(gè)2000億參數(shù)以中文為核心的預(yù)訓(xùn)練生成語(yǔ)言模型，目前開源了兩個(gè)版本：鵬程·盤古α和鵬程·盤古α增強(qiáng)版，并支持NPU和GPU兩個(gè)版本，支持豐富的場(chǎng)景應(yīng)用，在知識(shí)問答、知識(shí)檢索、知識(shí)

Chinese BERT中文預(yù)訓(xùn)練語(yǔ)言模型

在自然語(yǔ)言處理領(lǐng)域中，預(yù)訓(xùn)練語(yǔ)言模型（Pre-trainedLanguageModels）已成為非常重要的基礎(chǔ)技術(shù)。為了進(jìn)一步促進(jìn)中文信息處理的研究發(fā)展，我們發(fā)布了基于全詞遮罩（WholeWordMa

Chinese BERT中文預(yù)訓(xùn)練語(yǔ)言模型

在自然語(yǔ)言處理領(lǐng)域中，預(yù)訓(xùn)練語(yǔ)言模型（Pre-trained Language Models）已成為

VLE視覺-語(yǔ)言多模態(tài)預(yù)訓(xùn)練模型

VLE?(Vision-Language?Encoder) 是一種基于預(yù)訓(xùn)練文本和圖像編碼器的圖像-

YaLM 100B千億參數(shù)預(yù)訓(xùn)練語(yǔ)言模型

YaLM 100B是一個(gè)類似 GPT 的神經(jīng)網(wǎng)絡(luò)，用于生成和處理文本。該模型利用了 1000 億個(gè)參

點(diǎn)贊

收藏

分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

免费看一级一级人妻片 | 夫妻成人视频 | 天天摸天天操 | 无吗一区区三区四区 | 手机看片91 |