Stanford Alpaca指令調(diào)優(yōu)的?LLaMA 模型
Stanford Alpaca(斯坦福 Alpaca)是一個(gè)指令調(diào)優(yōu)的 LLaMA 模型,從 Meta 的大語言模型 LLaMA 7B 微調(diào)而來。
Stanford Alpaca 讓 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)樣本,以此作為 Alpaca 的訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)已將訓(xùn)練數(shù)據(jù)、生成訓(xùn)練數(shù)據(jù)的代碼和超參數(shù)開源,后續(xù)還將發(fā)布模型權(quán)重和訓(xùn)練代碼。
GitHub 的倉庫包含:
- 用于微調(diào)模型的 52K 數(shù)據(jù)
- 生成數(shù)據(jù)的代碼
- 微調(diào)模型的代碼
官方示例
評論
圖片
表情
