解決訓(xùn)練難題,1000層的Transformer來了,訓(xùn)練代碼很快公開
1000 層的 Transformer,深得嚇人。




down-scale 第 l 層的權(quán)重。例如,第 l 層 FFN 的輸出投影
被初始化為
其中 d’是輸入和輸出維度的平均值。研究者將此模型命名為 Post-LN-init。請(qǐng)注意,與之前的工作(Zhang et al., 2019a)不同, Post-LN-init 是縮窄了較低層的擴(kuò)展而不是較高層。研究者相信這種方法有助于將梯度擴(kuò)展的影響與模型更新區(qū)分開來。此外,Post-LN-init 與 Post-LN 具有相同的架構(gòu),從而消除了架構(gòu)的影響。


。這解釋了 Post-LN 訓(xùn)練中出現(xiàn)的梯度消失問題(見圖 4 (d))。









——The ?End——

評(píng)論
圖片
表情

