<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ChatGLM 金融大模型決賽方案總結(jié)

          共 4412字,需瀏覽 9分鐘

           ·

          2023-10-14 20:05

          作者:王小虎

          鏈接:https://zhuanlan.zhihu.com/p/658373406
          Q: 廣新控股集團(tuán)子公司名稱是什么?
          ChatGLM: 那要不住哥哥家里吧~

          1. 比賽簡介

          比賽鏈接:

          SMP 2023 ChatGLM金融大模型挑戰(zhàn)賽_算法大賽_賽題與數(shù)據(jù)_天池大賽https://tianchi.aliyun.com/competition/entrance/532126/information

          要求以ChatGLM2-6B模型為中心制作一個(gè)問答系統(tǒng),從約4000家上市公司三年的年報(bào)pdf內(nèi)抽取關(guān)鍵信息回答一些問題。問題舉例:

          Q: 2019年中國工商銀行財(cái)務(wù)費(fèi)用是多少元?
          A: 2019年中國工商銀行財(cái)務(wù)費(fèi)用是12345678.9元。

          具體來說,問題的類型有
          初級:數(shù)據(jù)基本查詢(40分)
          參賽者需要利用提供的ChatGLM2-6B開源模型和上市公司年報(bào)原始數(shù)據(jù),并以此為基礎(chǔ)創(chuàng)建信息問答系統(tǒng)。系統(tǒng)需能夠解決基本查詢,

          某公司2021年的研發(fā)費(fèi)用是多少?

          這類問題可以直接從pdf抽取得到
          中級:數(shù)據(jù)統(tǒng)計(jì)分析查詢(30分
          在初級階段的基礎(chǔ)上,參賽者需要進(jìn)行金融數(shù)據(jù)的統(tǒng)計(jì)分析和關(guān)聯(lián)指標(biāo)查詢。系統(tǒng)需基于各類指標(biāo),提供問題和答案,

          某公司2021年研發(fā)費(fèi)用增長率為多少?

          這類問題的解決是多步驟的,例如抽取兩年的研發(fā)費(fèi)用,再做一個(gè)除法
          高級:開放性問題(30分)

          某公司2021年主要研發(fā)項(xiàng)目是否涉及國家創(chuàng)新領(lǐng)域,如新能源技術(shù)、人工智能等?

          這類問題比較依賴大模型的泛化能力

          年報(bào)原文主要分為正文和表格兩部分,舉例:

          2. 決賽方案概覽

          所有選手的技術(shù)方案都可以分為三個(gè)階段:

          一個(gè)具體的流程圖:

          一個(gè)具體的流程圖

          2.1 問題分類

          不同的問題的解決方式是不同的,因此需要先進(jìn)行問題分類。需要根據(jù)答案抽取步驟的種類來確定類別

          問題類型舉例

          問題類型舉例

          2.2 答案抽取

          對于不同的問題有不同的答案抽取方法。
          數(shù)據(jù)查詢問題,大部分選手都使用了SQL查表的方式。
          針對某公司的開放性問題,采用文檔查詢結(jié)合Prompt工程的方式來解決。
          開放性問題大多數(shù)財(cái)務(wù)專有名詞的解釋,通常使用LLM直接回答
          具體方法在下一節(jié)介紹

          2.3 答案生成

          這一步是將步驟2得到的結(jié)構(gòu)化數(shù)據(jù)用模板輸出。模板數(shù)量較多,有手工編寫,規(guī)則生成,ChatGPT編寫等方式。
          還有一些后處理操作,例如如果大模型的回答是"我不知道",可以直接retry生成另一個(gè)答案,因?yàn)長LM的生成具有隨機(jī)性,這樣做可以解決很多問題。
          一個(gè)具體的數(shù)值問題回答過程的例子:

          3. 方案詳解

          3.1 問題分類(意圖識別)

          這一部分的解決方案也是Model-based和Rule-based相結(jié)合的,在分類的同時(shí),也會提取一些關(guān)鍵詞供后續(xù)處理

          3.1.1 文本分類模型

          Model-base方面,大部分選手利用了ChatGLM-6B作為一個(gè)文本分類器使用。模型使用Lora或P-tuning方式微調(diào)成為一個(gè)文本分類模型,分類數(shù)據(jù)集的來源于少量的手動label以及大量的rule做label(和rule-based方法相似)

          3.1.2 關(guān)鍵詞提取與匹配

          rule-base方法,主要是關(guān)鍵詞提取和匹配。這一步非常重要,也是決定比賽成績的關(guān)鍵。

          首先需要維護(hù)一個(gè)關(guān)鍵詞庫,主要包含問題類型關(guān)鍵詞(保留2位小數(shù)),年份,公司名稱,專有名詞(總資產(chǎn)、資產(chǎn)增長率,碩士員工人數(shù))等。

          3.1.2.1 關(guān)鍵詞詞庫提取
          關(guān)鍵詞詞庫的提取有BM25和ChatGLM模型抽取兩種方法,模型抽取需要寫一個(gè)Prompt

          BM25
          BM25是一種統(tǒng)計(jì)方法,是TF-IDF算法的變體。
          在文本分詞后,統(tǒng)計(jì)一個(gè)詞在一篇文章(段落也可)的出現(xiàn)次數(shù)和全部文章的出現(xiàn)次數(shù),如果一個(gè)詞在單文章中出現(xiàn)比較多而在全部文章中出現(xiàn)比較少(如公司名字), 則它很有可能是關(guān)鍵詞。
          算法詳見

          BM25 相對 TF-IDF 有哪些優(yōu)勢?
          https://www.zhihu.com/question/349357370

          3.1.2.2 關(guān)鍵詞匹配
          關(guān)鍵詞匹配的難點(diǎn)在于年報(bào)中同一名詞說法的多樣性,如碩士員工人數(shù)在年報(bào)中可能會以下列形式出現(xiàn)

          碩士人數(shù)XX人
          碩士研究生人數(shù)XX人
          碩士學(xué)歷以上XX人
          XX人獲得碩士以上學(xué)歷

          解決此類問題,有關(guān)鍵詞拓展和向量化匹配兩種方法

          關(guān)鍵詞拓展
          可以直接使用關(guān)鍵詞在語料中搜索,發(fā)現(xiàn)一些詞組經(jīng)常成對出現(xiàn),如"碩士"和"學(xué)歷"經(jīng)常伴隨出現(xiàn),因此"碩士"可拓展一個(gè)關(guān)鍵詞是"碩士學(xué)歷",可以用規(guī)則實(shí)現(xiàn),也可以使用基于概率的算法,具體的計(jì)算方法可以參見

          新詞發(fā)現(xiàn)的信息熵方法與實(shí)現(xiàn) - 科學(xué)空間|Scientific Spaces
          https://spaces.ac.cn/archives/3491

          關(guān)鍵詞向量化匹配
          除了直接使用正則匹配外,許多選手使用了詞向量計(jì)算詞的語義相似度,例如"北京大學(xué)"和"北大"語義相似度很高,可以視為同一個(gè)關(guān)鍵詞。

          3.2 答案要素提取

          答案的數(shù)據(jù)來源分為年報(bào)表格和年報(bào)正文兩部分。年報(bào)表格都是數(shù)值類問題

          3.2.1 數(shù)值類

          數(shù)據(jù)庫構(gòu)建
          年報(bào)表格,先將表格解析后存入關(guān)系型數(shù)據(jù)庫,是純純的dirty work

          數(shù)據(jù)庫query
          很多選手用了NL2SQL(Natural Language To SQL)任務(wù)來生成SQL語句查詢。
          NL2SQL模型也是一個(gè)基于ChatGLM-6B微調(diào)得到的模型。選手們使用了開源的DuSQL/NL2SQL/Cspider,以及ChatGPT生成一些NL2SQL數(shù)據(jù)集,還可以寫一些rule生成。然后對ChatGLM做P-Tuning。

          關(guān)于NL2SQL的prompt優(yōu)化,要盡量提高prompt的信噪比,去掉信息熵較低的詞語,如stopword(的地得、請)、“保留小數(shù)”
          容易查詢錯誤的關(guān)鍵詞,如公司名詞,可以在prompt中著重強(qiáng)調(diào)
          一些復(fù)雜的查詢,如兩年的增長率,可以分為兩個(gè)問題,分別查詢兩年的數(shù)值,然后使用python函數(shù)計(jì)算增長率,使得NL2SQL的prompt盡量簡單明確。

          這一步本質(zhì)是使用Tool,可以使用Tools learning方法讓模型學(xué)會SQL查詢,選手沒有詳細(xì)介紹。
          NL2SQL也可以使用Rule-based方法,這里不贅述。

          3.2.2 文本類

          大模型可以讀完一段文本后回答各種問題。對于年報(bào)正文相關(guān)的問題,為了降低大模型抽取信息的難度,首先要search得到問題最相關(guān)的年報(bào)具體句子或段落,提高信噪比。可以直接用向量查詢,也可以在文檔樹上做樹的查詢。

          句子匹配
          關(guān)鍵詞匹配:由于問題和答案關(guān)鍵詞重合度很高,可以使用BM25直接計(jì)算句子的相似性,而流行的SentenceBert方法未微調(diào)情況下不如BM25
          句子向量化匹配:可以使用m3e-base預(yù)訓(xùn)練模型或SentenceBert等Text2vec模型
          使用向量數(shù)據(jù)庫存儲句子以及句子向量,可以加速句向量匹配。關(guān)于向量數(shù)據(jù)庫的選取,選手們用faiss比較多

          文檔樹查詢
          標(biāo)題和問題的相關(guān)性很高。使用各級標(biāo)題信息,將PDF解析為一顆DocTree,用章節(jié)標(biāo)題和問題做向量化匹配,自頂向下做樹的搜索,找到對應(yīng)的正文。

          文本類信息抽取
          這一步用模型直接生成即可,需要設(shè)計(jì)一個(gè)Prompt,也需要做些微調(diào)

          3.3 答案生成

          為了獲得較高的分?jǐn)?shù),需要將查詢結(jié)果按照指定格式輸出,例如SQL的格式化查詢結(jié)果轉(zhuǎn)換為一個(gè)自然語言句子,通常使用模板填充實(shí)現(xiàn)。模板由手工制作。

          也可以使用In-context learning方法利用ChatGLM來生成答案,具體的是給財(cái)務(wù)分析類問題,每一種問題標(biāo)注1~2個(gè)答案以及提供對應(yīng)的Json(格式化數(shù)據(jù)),讓模型學(xué)會答案生成。

          4. 感想

          6B模型無法做到端到端的任務(wù)能力。6B模型能力有限,無法實(shí)現(xiàn)pdf輸入->prompt->答案這一簡單架構(gòu)。因此選手們微調(diào)了各種sub-model來做各種sub-task,在前大模型時(shí)代,NLP系統(tǒng)也是使用各種Bert變種來完成各種任務(wù)的。如果能使用更大的模型,也許解決方案也會有變化。

          大模型時(shí)代數(shù)據(jù)質(zhì)量依然尤其重要。從選手介紹技術(shù)方案的篇幅可以感覺到,比賽最重要的部分是提高數(shù)據(jù)質(zhì)量,主要體現(xiàn)在模型訓(xùn)練時(shí),對關(guān)鍵詞的提取/拓展/糾錯等部分。Prompt也需要精心構(gòu)造,提高信噪比。

          ChatGLM: 那要不住哥哥家里吧~

          END

          推薦閱讀

          瀏覽 615
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91无码人妻精品一区二区蜜桃 | 人人看天天操 | 亚洲日韩国产剧情自制在线观看 | 91高清无码免费看 | 国内一区二区精品 |