RWKV-LM線性 Transformer 模型
RWKV 是結(jié)合了 RNN 和 Transformer 的語(yǔ)言模型,適合長(zhǎng)文本,運(yùn)行速度較快,擬合性能較好,占用顯存較少,訓(xùn)練用時(shí)較少。
RWKV 整體結(jié)構(gòu)依然采用 Transformer Block 的思路,其整體結(jié)構(gòu)如圖所示:
相較于原始 Transformer Block 的結(jié)構(gòu),RWKV 將 self-attention 替換為 Position Encoding 和 TimeMix,將 FFN 替換為 ChannelMix。其余部分與 Transfomer 一致。
評(píng)論
圖片
表情
