預訓練卷積超越預訓練Transformer?
點藍色字關注“機器學習算法工程師”
設為星標,干貨直達!
來源|知乎 作者|DengBoCong
鏈接|https://zhuanlan.zhihu.com/p/380195756


,也就是說每個
的輸出通道共享參數(shù),其中 

。通過這種方式,使得卷積核 We implement a Seq2Seq (Sutskever et al., 2014) architecture similar to (Wu et al., 2019). The key difference when compared with Transformer architectures is that we replace the multi-headed selfattention with convolutional blocks. Instead of query-key-value transforms, we use gated linear unit projections following (Wu et al., 2019).




在 

機器學習算法工程師
一個用心的公眾號

評論
圖片
表情
