<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<b id="afajh"><abbr id="afajh"></abbr></b>

GPT-2基于 transformer?的大型語言模型

聯(lián)合創(chuàng)作 · 2023-09-25 23:01

GPT-2 是一種基于 transformer 的大型語言模型，具有 15 億個(gè)參數(shù)，在 800 萬網(wǎng)頁數(shù)據(jù)集上進(jìn)行訓(xùn)練。

它是論文《語言模型是無人監(jiān)督的多任務(wù)學(xué)習(xí)者》（Language Models are Unsupervised Multitask Learners）的代碼實(shí)現(xiàn)。

目前發(fā)布了 GPT-2 的小型（117M 參數(shù)）和中型（345M 參數(shù)）版本，還沒有發(fā)布更大的模型，但已經(jīng)發(fā)布了一個(gè)數(shù)據(jù)集供研究人員研究行為。該存儲(chǔ)庫旨在成為研究人員和工程師嘗試使用 GPT-2 的起點(diǎn)。

點(diǎn)贊

評(píng)論

編輯分享

舉報(bào)

評(píng)論

圖片

表情

GPT-2基于 transformer?的大型語言模型

GPT-2是一種基于transformer?的大型語言模型，具有15億個(gè)參數(shù)，在800萬網(wǎng)頁數(shù)據(jù)集上進(jìn)行訓(xùn)練。它是論文《語言模型是無人監(jiān)督的多任務(wù)學(xué)習(xí)者》（LanguageModelsareUnsup

MPT-30B大型語言模型

MPT-30B 是 Mosaic Pretrained Transformer (MPT) 模型系列

MPT-30B大型語言模型

MPT-30B是MosaicPretrainedTransformer(MPT)模型系列的一部分，它使用了一個(gè)為高效訓(xùn)練和推理而優(yōu)化的transformer架構(gòu)，并在1Ttokens的英文文本和代碼上

通義千問-7B基于 Transformer 的大語言模型

通義千問-7B（Qwen-7B）是阿里云研發(fā)的通義千問大模型系列的70億參數(shù)規(guī)模的模型。Qwen-

通義千問-7B基于 Transformer 的大語言模型

通義千問-7B（Qwen-7B）是阿里云研發(fā)的通義千問大模型系列的70億參數(shù)規(guī)模的模型。Qwen-7B是基于Transformer的大語言模型，在超大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練得到。預(yù)訓(xùn)練數(shù)據(jù)類型多樣

Lit-LLaMA ?基于 nanoGPT 的語言模型

Lit-LLaMA是一個(gè)基于nanoGPT的LLaMA語言模型的實(shí)現(xiàn)，支持量化、LoRA微調(diào)、預(yù)訓(xùn)練。設(shè)計(jì)原則簡單：單一文件實(shí)現(xiàn)，沒有樣板代碼正確：在數(shù)值上等同于原始模型優(yōu)化：在消費(fèi)者硬件上或大規(guī)模運(yùn)

Lit-Parrot大型語言模型的可破解實(shí)現(xiàn)

Lit-Parrot 是基于 nanoGPT 的 StableLM/Pythia/INCITE 語言

點(diǎn)贊

評(píng)論

編輯分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<b id="afajh"><abbr id="afajh"></abbr></b>