LaWGPT基于中文法律知識的大語言模型
LaWGPT 是一系列基于中文法律知識的開源大語言模型。
該系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基礎上擴充法律領域?qū)S性~表、大規(guī)模中文法律語料預訓練,增強了大模型在法律領域的基礎語義理解能力。在此基礎上,構造法律領域?qū)υ拞柎饠?shù)據(jù)集、中國司法考試數(shù)據(jù)集進行指令精調(diào),提升了模型對法律內(nèi)容的理解和執(zhí)行能力。
詳細內(nèi)容請參考技術報告。
項目結構
LaWGPT
├── assets # 項目靜態(tài)資源
├── data # 語料及精調(diào)數(shù)據(jù)
├── tools # 數(shù)據(jù)清洗等工具
├── README.md
├── requirements.txt
└── src # 源碼
├── finetune.py
├── generate.py
├── models # 基座模型及 Lora 權重
│ ├── base_models
│ └── lora_weights
├── outputs
├── scripts # 腳本文件
│ ├── finetune.sh # 指令微調(diào)
│ └── generate.sh # 服務創(chuàng)建
├── templates
└── utils
數(shù)據(jù)構建
本項目基于中文裁判文書網(wǎng)公開法律文書數(shù)據(jù)、司法考試數(shù)據(jù)等數(shù)據(jù)集展開,詳情參考中文法律數(shù)據(jù)匯總
- 初級數(shù)據(jù)生成:根據(jù)Stanford_alpaca和self-instruct方式生成對話問答數(shù)據(jù)
- 知識引導的數(shù)據(jù)生成:通過 Knowledge-based Self-Instruct 方式基于中文法律結構化知識生成數(shù)據(jù)。
- 引入 ChatGPT 清洗數(shù)據(jù),輔助構造高質(zhì)量數(shù)據(jù)集。
模型訓練
LawGPT 系列模型的訓練過程分為兩個階段:
- 第一階段:擴充法律領域詞表,在大規(guī)模法律文書及法典數(shù)據(jù)上預訓練 Chinese-LLaMA
- 第二階段:構造法律領域?qū)υ拞柎饠?shù)據(jù)集,在預訓練模型基礎上指令精調(diào)
二次訓練流程
- 參考
src/data/example_instruction_train.json構造二次訓練數(shù)據(jù)集 - 運行
src/scripts/train_lora.sh
指令精調(diào)步驟
- 參考
src/data/example_instruction_tune.json構造指令微調(diào)數(shù)據(jù)集 - 運行
src/scripts/finetune.sh
計算資源
8 張 Tesla V100-SXM2-32GB
模型評估
輸出示例
問題:請給出判決意見。
問題:請介紹賭博罪的定義。
問題:請問加班工資怎么算?
局限性
由于計算資源、數(shù)據(jù)規(guī)模等因素限制,當前階段 LawGPT 存在諸多局限性:
- 數(shù)據(jù)資源有限、模型容量較小,導致其相對較弱的模型記憶和語言能力。因此,在面對事實性知識任務時,可能會生成不正確的結果。
- 該系列模型只進行了初步的人類意圖對齊。因此,可能產(chǎn)生不可預測的有害內(nèi)容以及不符合人類偏好和價值觀的內(nèi)容。
- 自我認知能力存在問題,中文理解能力有待增強。
評論
圖片
表情
