<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          LaWGPT基于中文法律知識的大語言模型

          聯(lián)合創(chuàng)作 · 2023-09-25 23:34

          LaWGPT 是一系列基于中文法律知識的開源大語言模型。

          該系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基礎上擴充法律領域?qū)S性~表、大規(guī)模中文法律語料預訓練,增強了大模型在法律領域的基礎語義理解能力。在此基礎上,構造法律領域?qū)υ拞柎饠?shù)據(jù)集、中國司法考試數(shù)據(jù)集進行指令精調(diào),提升了模型對法律內(nèi)容的理解和執(zhí)行能力。

          詳細內(nèi)容請參考技術報告

          項目結構

          LaWGPT
          ├── assets # 項目靜態(tài)資源
          ├── data   # 語料及精調(diào)數(shù)據(jù)
          ├── tools  # 數(shù)據(jù)清洗等工具
          ├── README.md
          ├── requirements.txt
          └── src    # 源碼
              ├── finetune.py
              ├── generate.py
              ├── models  # 基座模型及 Lora 權重
              │   ├── base_models
              │   └── lora_weights
              ├── outputs
              ├── scripts # 腳本文件
              │   ├── finetune.sh # 指令微調(diào)
              │   └── generate.sh # 服務創(chuàng)建
              ├── templates
              └── utils

          數(shù)據(jù)構建

          本項目基于中文裁判文書網(wǎng)公開法律文書數(shù)據(jù)、司法考試數(shù)據(jù)等數(shù)據(jù)集展開,詳情參考中文法律數(shù)據(jù)匯總

          1. 初級數(shù)據(jù)生成:根據(jù)Stanford_alpacaself-instruct方式生成對話問答數(shù)據(jù)
          2. 知識引導的數(shù)據(jù)生成:通過 Knowledge-based Self-Instruct 方式基于中文法律結構化知識生成數(shù)據(jù)。
          3. 引入 ChatGPT 清洗數(shù)據(jù),輔助構造高質(zhì)量數(shù)據(jù)集。

          模型訓練

          LawGPT 系列模型的訓練過程分為兩個階段:

          1. 第一階段:擴充法律領域詞表,在大規(guī)模法律文書及法典數(shù)據(jù)上預訓練 Chinese-LLaMA
          2. 第二階段:構造法律領域?qū)υ拞柎饠?shù)據(jù)集,在預訓練模型基礎上指令精調(diào)

          二次訓練流程

          1. 參考src/data/example_instruction_train.json構造二次訓練數(shù)據(jù)集
          2. 運行src/scripts/train_lora.sh

          指令精調(diào)步驟

          1. 參考src/data/example_instruction_tune.json構造指令微調(diào)數(shù)據(jù)集
          2. 運行src/scripts/finetune.sh

          計算資源

          8 張 Tesla V100-SXM2-32GB

          模型評估

          輸出示例

          問題:請給出判決意見。

          問題:請介紹賭博罪的定義。

          問題:請問加班工資怎么算?

          局限性

          由于計算資源、數(shù)據(jù)規(guī)模等因素限制,當前階段 LawGPT 存在諸多局限性:

          1. 數(shù)據(jù)資源有限、模型容量較小,導致其相對較弱的模型記憶和語言能力。因此,在面對事實性知識任務時,可能會生成不正確的結果。
          2. 該系列模型只進行了初步的人類意圖對齊。因此,可能產(chǎn)生不可預測的有害內(nèi)容以及不符合人類偏好和價值觀的內(nèi)容。
          3. 自我認知能力存在問題,中文理解能力有待增強。
          瀏覽 23
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久久久久久极品内射 | 再拍偷拍成人视频 | 男女污污污 | 自拍偷拍第四页 | 亚洲娱乐在线 |