通俗講解從Transformer到BERT模型!
近兩年來,Bert模型非常受歡迎,大部分人都知道Bert,但卻不明白具體是什么。一句話概括來講:BERT的出現(xiàn),徹底改變了預(yù)訓(xùn)練產(chǎn)生詞向量和下游具體NLP任務(wù)的關(guān)系,提出龍骨級的訓(xùn)練詞向量概念。
想要了解Bert,那么可能你需要先從tranformer框架了解清楚。今天我們就從Transformer到Bert進(jìn)行詳細(xì)地講解。
1. Attention
在學(xué)會 Transformer 和 Bert 之前,我們需要理解Attention和Self-Attention機(jī)制。Attention的本質(zhì)是要找到輸入的feature的權(quán)重分布,這個feature在某一個維度有一個長度的概念,如果我們輸入一個長為 n 的 feature,那么 Attention 就要學(xué)習(xí)一個長為 n 的分布權(quán)重,這個權(quán)重是由相似度計算出來的,最后返回的得分就將會是權(quán)重與feature的加權(quán)和。
1.1 Attention的計算過程
Attention的輸入是Q,K,V,返回的是一個socre,計算公式如下:
需要注意的是上述公式的下標(biāo)位置,顯然我們需要學(xué)習(xí)的權(quán)重分布是?,而和相關(guān),就是我們希望去被找到權(quán)重的feature。
1.1.1 QKV 英文名字的含義
Q 即為英文中 Query 是指:被查詢的序列,可以看到在每次計算相似度的過程中,Q在計算中是一直保持著整體的狀態(tài)。 K 即為英文中 Key 是指:被查詢的索引,我們學(xué)習(xí)到的權(quán)重分布A 長度為n,那么A中每一個下標(biāo)的大小,就代表了對應(yīng)索引被分配到的權(quán)重。所以這個K,控制的是索引。 V 即為英文中的 Value 是指:值,也就是我們feature 本身的值,他要去和權(quán)重分布做加權(quán)和來得到最終的分布。
1.1.2 相似度的計算方式
這里相似度的計算方式有很多種:
| 相似度名 | 計算方式 |
|---|---|
| 點(diǎn)乘 | |
| 矩陣乘積 | ,為參數(shù) |
| 余弦相似度 | $s(q,k)=\frac{q^Tk}{ |
| concat | ,為參數(shù) |
| mlp | ,為參數(shù) |
1.2 HAN中的Attention
我們首先看一下 HAN 的 Attention 中的QKV分別是如何體現(xiàn)的。
在 HAN 中,我們只有一個輸入?,輸出為?和?的加權(quán)平均,所以即為 Attention 機(jī)制中的 Value。我們把?做了一個線性變換變成了?,然后又隨機(jī)生成了一個 向量?, 一起計算?。公式為:
可以看到在公式中一直處于被查詢的狀態(tài),即一直保持著一個整體的狀態(tài),所以我們生成的隨機(jī)向量即為 Attention 機(jī)制中的Query 。而我們做完線性變換生成的U 給 A 生成不同索引的權(quán)重值,他即代表我們 Attention 機(jī)制中的 Key。這里用的相似度公式顯然是點(diǎn)積,而在我自己實(shí)現(xiàn)的時候遇到了點(diǎn)困難,改成了MLP實(shí)現(xiàn)法。
1.3 seq2seq中的Attention
我們來看 seq2seq 中的 Attention 機(jī)制,在這個任務(wù)中我們需要一步一步的生成,我們會根據(jù)每一步生成的(實(shí)際是一個分布),找到對應(yīng)的單詞。我們的生成公式為:
可以看出,每一次生成的時候都要被更新,而在這個模型中就是 Attention 模型最終被返回的得分。
在 seq2seq模型中,我們把輸入Encoder 生成的值記為?,我們需要學(xué)習(xí)關(guān)于?的權(quán)重分布,所以?即為這里 Value,而這里的 Key 也是?他自己,他沒有像 HAN 中一樣做變換,我們每一次要查詢的 Query 是已經(jīng)生成的序列?也即為 Decoder 中生成的值 ,顯然隨著每次生成的變化這個被查詢的?會變長。這樣,由我們的?就能生成出最后的。
2. Transformer
Transformer改進(jìn)了RNN最被人詬病的訓(xùn)練慢的缺點(diǎn),利用self-attention機(jī)制實(shí)現(xiàn)快速并行。
2.1 Self-Attention
在 Transformer 中我們要用到的 Attention 方式是 Self-Attention,它與之前的 Attention 有些許的不同。簡單的來說,它通過學(xué)習(xí)三個參數(shù),來對同一個embedding之后的feature 進(jìn)行轉(zhuǎn)換,將他線性轉(zhuǎn)換成Q、K、V?之后計算出這句話的 Attention 得分。名字中的Self 體現(xiàn)的是所有的Q、K、V?都是由輸入自己生成出來的。
歸一化:權(quán)重分布在歸一化前,要除以輸入矩陣的第一維開根號,這會讓梯度更穩(wěn)定。這里也可以使用其它值,8只是默認(rèn)值,再進(jìn)行softmax。
返回:這里返回的值和輸入的長度維度是一樣的,每一個單詞對應(yīng)的輸出是所有單詞對于當(dāng)前單詞的權(quán)重分布與Value得分的加權(quán)和。所以他有多少個單詞,就做了多少次Attention 得分,這就是self-Attention 。
2.2 模型結(jié)構(gòu)
Transformer:Input(Embedding)→Encoder ×6 → Decoder×6 → output Encoder:Multi-headed attention → Add&Norm → Feed Forward → Add&Norm Decoder:Multi-headed attention → Add&Norm → Encoder-Decoder-Attention → Add&Norm → Feed Forward → Add&Norm
Multi-headed attention:Self-Attention×8
其中Encoder-Decoder-Attention即為seq2seq 中的Attention 結(jié)構(gòu),K和V 為Encoder頂層的output。
2.3 Multi-headed attention(多頭怪)
Self-Attention 生成了一組,而多頭怪生成了 8組?,在實(shí)際的過程中,最后需要把這8組進(jìn)行concat(拼接)。
需要注意的是 Decoder 端的多頭 self-attention 需要做mask,因?yàn)樗陬A(yù)測時,是“看不到未來的序列的”,所以要將當(dāng)前預(yù)測的單詞(token)及其之后的單詞(token)全部mask掉。使用多頭機(jī)制可以理解為CNN中同時使用多個卷積核。
代碼實(shí)現(xiàn)在pytorch中很簡單,直接調(diào)包即可:第0維是長度,第一維是batchsize。
## nn.MultiheadAttention 輸入第0維為lengthquery = torch.rand(12,64,300)key = torch.rand(10,64,300)value= torch.rand(10,64,300)multihead_attn = nn.MultiheadAttention(embed_dim, num_heads)multihead_attn(query, key, value)[0].shape# output: torch.Size([12, 64, 300])
可以考慮實(shí)現(xiàn)一個第0維是 batchsize 的 MultiheadAttention:
class MultiheadAttention(nn.Module):def __init__(self, hid_dim, n_heads, dropout):super(MultiheadAttention,self).__init__()self.hid_dim = hid_dimself.n_heads = n_headsassert hid_dim % n_heads == 0 # d_model // h 是要能整除self.w_q = nn.Linear(hid_dim, hid_dim)self.w_k = nn.Linear(hid_dim, hid_dim)self.w_v = nn.Linear(hid_dim, hid_dim)self.fc = nn.Linear(hid_dim, hid_dim)self.do = nn.Dropout(dropout)self.scale = torch.sqrt(torch.FloatTensor([hid_dim // n_heads]))def forward(self, query, key, value, mask=None):bsz = query.shape[0]Q = self.w_q(query)K = self.w_k(key)V = self.w_v(value)Q = Q.view(bsz, -1, self.n_heads, self.hid_dim //self.n_heads).permute(0, 2, 1, 3)K = K.view(bsz, -1, self.n_heads, self.hid_dim //self.n_heads).permute(0, 2, 1, 3)V = V.view(bsz, -1, self.n_heads, self.hid_dim //self.n_heads).permute(0, 2, 1, 3)# Q, K相乘除以scale,這是計算scaled dot product attention的第一步energy = torch.matmul(Q, K.permute(0, 1, 3, 2)) / self.scale# 如果沒有mask,就生成一個if mask is not None:energy = energy.masked_fill(mask == 0, -1e10)# 然后對Q,K相乘的結(jié)果計算softmax加上dropout,這是計算scaled dot product attention的第二步:attention = self.do(torch.softmax(energy, dim=-1))# 第三步,attention結(jié)果與V相乘x = torch.matmul(attention, V)# 最后將多頭排列好,就是multi-head attention的結(jié)果了x = x.permute(0, 2, 1, 3).contiguous()x = x.view(bsz, -1, self.n_heads * (self.hid_dim // self.n_heads))x = self.fc(x)return x
測試結(jié)果符合預(yù)期:
## 構(gòu)造的 輸入第0維為batchquery = torch.rand(64,12,300)key = torch.rand(64,10,300)value= torch.rand(64,10,300)tran=MultiheadAttention(hid_dim=300, n_heads=6, dropout=0.1)tran(query, key, value).shape## output: torch.Size([64, 12, 300])
2.4 使用位置編碼表示序列的順序
將位置向量添加到詞嵌入中使得它們在接下來的運(yùn)算中,能夠更好地表達(dá)的詞與詞之間的距離(因?yàn)?Self-Attention 本身是并行的,沒有學(xué)習(xí)位置信息)。原始論文里描述了位置編碼的公式,使用了使用不同頻率的正弦和余弦,因?yàn)槿枪讲皇苄蛄虚L度的限制,也就是可以對比之前遇到序列的更長的序列進(jìn)行表示。
2.5 Add&Norm(殘差模型)
殘差模塊就是一個殘差連接,并且都跟隨著一個“層歸一化”步驟。其中Norm 指的是 Layer Normalization,在 torch 中也很方便調(diào)用。
3. Bert
Bert模型的定位是一個預(yù)訓(xùn)練模型,同等級的應(yīng)該是NNLM,Word2vec,Glove,GPT,還有ELMO。模型具體的解釋不是本文關(guān)注重點(diǎn),這里同樣采用簡單概述。
3.1 預(yù)訓(xùn)練模型分類
非語言模型:Word2vec,Glove
語言模型:GPT,NNLM,ELMO,Bert。
其中NNLM是不考慮上下文(單向)的,而ELMO和Bert是考慮上下文(雙向)的模型。
3.2 不同模型的建模
3.2.1 NNLM
其全稱為Nerual Network Language Model
目標(biāo)函數(shù)為用前t-1個單詞,預(yù)測第t個單詞,即最大化:
3.2.2 ELMO
Elmo的全稱為Embedding from Language Models,ELMO是根據(jù)上下文單詞的語義去動態(tài)調(diào)整單詞的Word Embedding表示,解決了多義詞的問題,采用的機(jī)制為雙層雙向LSTM。
目標(biāo)函數(shù)
ELMo是分別以
和
作為目標(biāo)函數(shù),獨(dú)立訓(xùn)練處兩個representation然后進(jìn)行拼接。
詞的表示
由于采用了雙層雙向LSTM,所以網(wǎng)絡(luò)中有三層Word Embedding,給予這三個Embedding中的每一個Embedding一個權(quán)重,這個權(quán)重可以學(xué)習(xí)得來,根據(jù)各自權(quán)重累加求和,將三個Embedding整合成一個Embedding。
理解:第一層LSTM學(xué)習(xí)到了句法信息,所以可以用這種方式解決一詞多義。
ELMO兩階段過程
第一個階段是語言模型進(jìn)行預(yù)訓(xùn)練; 第二個階段是在做下游任務(wù)時,從預(yù)訓(xùn)練網(wǎng)絡(luò)中提取對應(yīng)單詞的網(wǎng)絡(luò)各層的Word Embedding作為新特征補(bǔ)充到下游任務(wù)中。
3.2.3 GPT
GPT全稱為Generative Pre-Training,它和ELMO類似都使用了Transformer,但與ELMO不同的是采用了單向的語言模型,也即只采用單詞的上文來進(jìn)行預(yù)測。其余與ELMO幾乎一樣這里就不展開介紹了。
3.2.4 BERT
BERT 在 GPT 的基礎(chǔ)上使用了雙向的Transformer block連接,為了適配多任務(wù)下的遷移學(xué)習(xí),BERT設(shè)計了更通用的輸入層和輸出層。
BERT兩階段過程
第一階段雙向語言模型預(yù)訓(xùn)練,第二階段采用具體任務(wù)Fine-tuning。
目標(biāo)函數(shù)
BERT預(yù)訓(xùn)練模型分為以下三個步驟:Embedding、Masked LM、Next Sentence Prediction
Embedding

Token Embeddings:是詞向量,第一個單詞是CLS標(biāo)志,可以用于之后的分類任務(wù)
Segment Embeddings:將句子分為兩段,用來區(qū)別兩種句子,因?yàn)轭A(yù)訓(xùn)練不光做LM還要做以兩個句子為輸入的分類任務(wù)
Position Embeddings:和之前文章中的Transformer不一樣,不是三角函數(shù)而是學(xué)習(xí)出來的
Masked LM
隨機(jī)mask每一個句子中15%的詞,用其上下文來做預(yù)測。采用非監(jiān)督學(xué)習(xí)的方法預(yù)測mask位置的詞。在這15%中,80%是采用[mask],10%是隨機(jī)取一個詞來代替mask的詞,10%保持不變。
Next Sentence Prediction
用A+B/C來作為樣本:選擇一些句子對A與B,其中50%的數(shù)據(jù)B是A的下一條句子,剩余50%的數(shù)據(jù)B是語料庫中隨機(jī)選擇的,學(xué)習(xí)其中的相關(guān)性,添加這樣的預(yù)訓(xùn)練的目的是目前很多NLP的任務(wù)比如QA和NLI都需要理解兩個句子之間的關(guān)系,從而能讓預(yù)訓(xùn)練的模型更好的適應(yīng)這樣的任務(wù)。
Bert的優(yōu)缺點(diǎn)
Bert 對硬件資源的消耗巨大,大模型需要16個tpu,歷時四天;更大的模型需要64個tpu,歷時四天。 Bert 最大的亮點(diǎn)在于效果好及普適性強(qiáng),幾乎所有NLP任務(wù)都可以套用Bert這種兩階段解決思路,而且效果應(yīng)該會有明顯提升。
本文PDF電子版,后臺回復(fù)?Bert?獲取
