【LLM系列】中文版FLAN Collection,最大開源中文指令數(shù)據(jù)集COIG-PC
作者:黃文灝
項目地址:https://zhuanlan.zhihu.com/p/649230791

在之前的文章中表達過一個觀點,開源社區(qū)很難參加大模型訓練的過程中,因為訓練資源是少數(shù)機構(gòu)壟斷的,那開源社區(qū)最值得做的事情就是參與到數(shù)據(jù)集建設中。不管是預訓練數(shù)據(jù)還是指令數(shù)據(jù),中文開源社區(qū)都沒有特別好的數(shù)據(jù)資源,大多數(shù)預訓練數(shù)據(jù)大家都還在用Wudao-Corpora,但Wudao的數(shù)據(jù)需要大幅更新并進行質(zhì)量控制。指令領(lǐng)域更沒有大規(guī)模數(shù)據(jù)集給大家使用。從今年五月開始,智源研究院、清北、HKUST、CMU、MIT、ETH、Cornell、開源組織MAP、stardust.ai、linksoul.ai等機構(gòu)一起組織了COIG(Chinese Open Instruction Generalist)項目,目標就是構(gòu)建大規(guī)模的開源指令數(shù)據(jù)集,為LLM(Large Language Model)提供高質(zhì)量指令微調(diào)數(shù)據(jù)。最近,COIG二期指令數(shù)據(jù)集COIG-PC v1發(fā)布,PC(Prompt Collection) v1 數(shù)據(jù)集整合3.6億條中文指令數(shù)據(jù)集,3000+個中文自然語言任務,45B+ tokens,是目前最大規(guī)模、可商用的開源中文多任務指令集!團隊集合上百位工程師,來自全球各地40+個機構(gòu)。

COIG-PC
COIG-PC采用類似FLAN Collection的Instruction數(shù)據(jù)收集流程:通過對來源于互聯(lián)網(wǎng)的傳統(tǒng)中文自然語言處理(NLP)數(shù)據(jù)集進行清洗、標注和改寫,高質(zhì)量地建模中文自然語言指令。其中,工程師人工篩選3000+個開源域NLP數(shù)據(jù)集,改寫近千個源數(shù)據(jù)集的3367個中文NLP任務,3.6億條examples,總token數(shù)45B+!Task數(shù)量和example數(shù)量超過原版FLAN Collection(原版為1836 tasks & 15M examples)。
COIG-PC v1不僅是指令微調(diào),也是多任務學習進一步規(guī)?;恼滟F資料??梢詭椭形腖LM進行微調(diào)和優(yōu)化;并為研究人員和開發(fā)人員提供豐富資源,以提高語言模型處理多領(lǐng)域中文文本的能力,包括但不限于文本生成、信息提取、情感分析、機器翻譯等領(lǐng)域。根據(jù)之前的LinkSoul.ai進行Chinese LLaMA 2工作的經(jīng)驗,通過大規(guī)模的指令微調(diào)是可以給基座模型補充知識的。如果對LLaMA2擴充中文詞表,就一可能僅用COIG-PC的數(shù)據(jù)對LLaMA 2進行指令微調(diào)就有可能同時完成繼續(xù)訓練和指令微調(diào)。
Chinese-Llama-2-7b https://github.com/LinkSoul-AI/Chinese-Llama-2-7b
目前,數(shù)據(jù)集已更新至huggingface,論文和相關(guān)的core subset即將放出,敬請期待!
COIG-PC 鏈接:
COIG 一期
第一期總共發(fā)布了 5 個子數(shù)據(jù)集,包括翻譯指令、考試指令、人類價值觀對齊指令、反事實修正多輪聊天、Leetcode指令,總計 191k 數(shù)據(jù),聚焦中文語料、數(shù)據(jù)類型多樣、經(jīng)過了人工質(zhì)檢與修正、數(shù)據(jù)質(zhì)量可靠,而且可以商用。
共包括五部分數(shù)據(jù):
經(jīng)過人工驗證的翻譯通用指令(67,798)
作者對三個數(shù)據(jù)集進行了翻譯工作,包括具有1,616個任務描述和示例的Super-Natural Instructions數(shù)據(jù)集,175個種子任務的Self-Instruct數(shù)據(jù)集,以及66,007個指令的Unnatural Instructions數(shù)據(jù)集。整個翻譯過程分為自動翻譯、人工驗證和人工修正三個階段,以確保翻譯結(jié)果的準確性和可靠性。
在自動翻譯階段,作者將指令和實例的輸入輸出組合在一起,然后使用 DeepL 進行翻譯。
在人工驗證階段,作者為注釋者定義了四個標簽,根據(jù)指令是否可用和需要的修正程度進行分類。作者使用兩階段質(zhì)量驗證方法進行人工驗證,第一階段由經(jīng)驗豐富的質(zhì)量檢查員進行驗證,只有正確率超過95%的案例才能進入第二階段。在第二階段,專家質(zhì)量檢查員從總語料庫中隨機抽取200個案例進行驗證。
在人工修正階段,注釋者需要將翻譯后的指令和實例糾正為正確的中文三元組{指令,輸入,輸出},而不僅僅是保持翻譯的準確性。這是因為在 unnatural instructions 中存在事實錯誤,這可能會導致LLMs出現(xiàn) hallucination. 作者同樣使用兩階段質(zhì)量驗證方法進行人工修正,第一階段的正確率為97.24%。
人工注釋的考試指令(63,532)
中國的高考、中考和公務員考試題目中包含各種問題類型和詳細的分析,這些考試可以用來構(gòu)建思維鏈(CoT)語料庫用于增強模型推理能力。作者從這些考試中提取了六個信息元素,包括指令、問題背景、問題、答案、答案分析和粗粒度學科。這些語料庫中的六個主要學科是語文、英語、政治、生物、歷史和地質(zhì)。數(shù)學、物理和化學問題很少在語料庫中出現(xiàn),因為這些問題通常包含難以注釋的復雜數(shù)學符號。
人類價值觀對齊指令(34,471)
為了尊重和反映不同文化背景所帶來的主要差異,COIG數(shù)據(jù)集中的價值觀對齊數(shù)據(jù)被分為兩個獨立的系列:
一組展示中文世界共享人類價值觀的樣本。作者選擇了50個指令作為擴充種子,并使用中文世界通用的價值觀對齊樣本,生成了3,000個結(jié)果指令。另外一些展示特定區(qū)域文化或國家特定人類價值觀的樣本集。
反事實修正多輪聊天(13,653)
反事實修正多輪聊天數(shù)據(jù)集(CCMC)是基于CN-DBpedia知識圖譜數(shù)據(jù)集構(gòu)建的,旨在解決當前LLM中出現(xiàn)的幻覺和事實不一致的問題。數(shù)據(jù)集包含約13,000個對話,每個對話平均有5輪,共約65,000輪聊天。這些對話是在學生和教師之間進行的角色扮演聊天,他們在對話中參考相關(guān)的知識。
Leetcode 指令(11,737)
考慮到與代碼相關(guān)的任務可能有助于LLM能力的涌現(xiàn),作者從CC-BY-SA-4.0許可下的2,589個編程問題中構(gòu)建Leetcode指令。這些問題包含問題描述、多種編程語言和解釋(其中 834個問題尚沒有解釋)。
希望感興趣的同學一起加入COIG數(shù)據(jù)集共建工作,為中文LLM貢獻自己的力量。
