GPT-2基于 transformer?的大型語言模型
GPT-2 是一種基于 transformer 的大型語言模型,具有 15 億個(gè)參數(shù),在 800 萬網(wǎng)頁數(shù)據(jù)集上進(jìn)行訓(xùn)練。
它是論文《語言模型是無人監(jiān)督的多任務(wù)學(xué)習(xí)者》(Language Models are Unsupervised Multitask Learners)的代碼實(shí)現(xiàn)。
目前發(fā)布了 GPT-2 的小型(117M 參數(shù))和中型(345M 參數(shù))版本,還沒有發(fā)布更大的模型,但已經(jīng)發(fā)布了一個(gè)數(shù)據(jù)集供研究人員研究行為。該存儲(chǔ)庫旨在成為研究人員和工程師嘗試使用 GPT-2 的起點(diǎn)。
評(píng)論
圖片
表情
