<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2022年,預(yù)訓(xùn)練何去何從?

          共 4249字,需瀏覽 9分鐘

           ·

          2022-01-21 18:23

          ?作者?|?李政?

          研究方向?|?自然語言處理?

          來源?|?PaperWeekly


          大規(guī)模預(yù)訓(xùn)練


          預(yù)訓(xùn)練+微調(diào)的做法,在多個(gè)下游領(lǐng)域取得優(yōu)異的表現(xiàn)。而在過去的一年里,預(yù)訓(xùn)練模型更是在往大而深的方向發(fā)展。

          目前,國(guó)內(nèi)已有智源研究院、鵬城實(shí)驗(yàn)室、中科院自動(dòng)化所、阿里、百度、華為、浪潮等科研院所和企業(yè)研相繼發(fā)出“悟道”、“盤古”、“紫東 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。

          但是模型在往大而深方向發(fā)展的同時(shí),也存在如下亟待解決的問題:

          • 如何解釋預(yù)訓(xùn)練模型的理論基礎(chǔ)(如大模型智能的參數(shù)規(guī)模極限存在嗎)
          • 如何將大模型高效、低成本的應(yīng)用于實(shí)際系統(tǒng)
          • 如何克服構(gòu)建大模型的數(shù)據(jù)質(zhì)量、訓(xùn)練效率、算力消耗、模型交付等諸多障礙
          • 如何解決目前大部分大模型普遍缺乏認(rèn)知能力的問題



          對(duì)比學(xué)習(xí)


          對(duì)比學(xué)習(xí)的出發(fā)點(diǎn)在于避免模型坍塌,理想的模型應(yīng)該符合 alignment 和 uniformity,即語義相近的句子彼此聚集,語義無關(guān)的句子均勻分布。

          如果僅僅通過數(shù)據(jù)增強(qiáng)構(gòu)建正例,隨機(jī)句子作為負(fù)例,并為其打上 0,1 標(biāo)簽,存在以下問題:

          • 數(shù)據(jù)增強(qiáng)生成正例的變化有限
          • 隨機(jī)搭配成負(fù)例,含有除正例組合外其他組合全部為 0 的誘導(dǎo)
          • 0,1 標(biāo)簽的賦予太過絕對(duì),對(duì)相似性表述不夠準(zhǔn)確


          因此對(duì)比學(xué)習(xí)的核心思想轉(zhuǎn)變?yōu)椋?/span>

          score(X,X^{'})?>>?score(X,Y)



          其中,X 代表原樣本, 代表數(shù)據(jù)增強(qiáng)的正樣本,Y 代表隨機(jī)選擇的負(fù)樣本。根據(jù)該思想,對(duì)比學(xué)習(xí)采用 InfoNCE 損失函數(shù)

          loss?=?-log?\frac{exp(score(X,X^{'}))}{score(X,X^{'})+\sum_{i=1}^{N}score(X,Y_i)}



          通過該損失函數(shù)實(shí)現(xiàn)正例拉近,負(fù)例推遠(yuǎn)的效果。



          Prompt


          prompt 被譽(yù)為 NLP 領(lǐng)域的新范式,與預(yù)訓(xùn)練+微調(diào)的范式相比,其過程分為:"pre-train, prompt, and predict"。

          prompt 的出發(fā)點(diǎn)在于以更輕量化的方式利用預(yù)訓(xùn)練模型,避免微調(diào)與預(yù)訓(xùn)練之間存在的差異。

          prompt 通過構(gòu)建模版的方式,將下游任務(wù)轉(zhuǎn)為與預(yù)訓(xùn)練相似的 MLM 任務(wù),以該方式充分發(fā)揮預(yù)訓(xùn)練模型的性能。

          以文本情感分類任務(wù)中,"I love this movie."句子為例,prompt 按照以下方式進(jìn)行處理:

          3.1 生成prompt句子

          該步驟完成輸入句子到模型輸入的映射:

          x^{'}=f_{prompt}(x)



          其中, 為生成的 prompt 句子,x 為輸入句子, 為 prompt 函數(shù)。

          在本例中,使用的模版為:" [X] Overall, it was a [Z] movie."

          因此,得到的, 為"I love this movie. Overall it was a [Z] movie.

          3.2 模型預(yù)測(cè)

          該步驟將 輸入模型,模型完成模版空白位置的詞語預(yù)測(cè)。

          在本例中,模型可能預(yù)測(cè)為:"excellent", "great", "wonderful" 等詞語

          3.3 結(jié)果映射

          通常模型預(yù)測(cè)的詞語與任務(wù)輸出存在一定差距,因此我們需要完成詞語到輸出結(jié)果的映射。

          y?=?f(x^{'})



          在本例中,"excellent", "great", "wonderful" 等詞語映射為標(biāo)簽 "++"



          展望未來


          首先我認(rèn)為當(dāng)前基于數(shù)據(jù)驅(qū)動(dòng)方法存在如下的問題:

          1. 長(zhǎng)尾效應(yīng):自然界中的數(shù)據(jù)分布就是長(zhǎng)尾的,在學(xué)習(xí)的過程中,模型容易發(fā)生過擬合,泛化性較差。

          2. 數(shù)據(jù)噪聲:有標(biāo)簽的數(shù)據(jù),在標(biāo)注過程中就不可避免的存在噪聲。尤其是多位人員一起標(biāo)注時(shí),不同標(biāo)注人員根據(jù)自身的理解完成數(shù)據(jù)的標(biāo)注,但不同的人自身理解存在偏差,因此標(biāo)注結(jié)果極易存在誤差。歸根到底:標(biāo)注的規(guī)范難以確定,無法統(tǒng)一大家的知識(shí)庫(kù)。

          當(dāng)前我遇到的一些問題分享:模型仍無法很好地處理下述問題:


          太陽有幾只眼睛?
          姚明與奧尼爾身高誰比較高?
          貓咪可以吃生蛋黃嗎?貓咪是可以吃蛋黃的。這里特定煮熟的白水蛋,貓咪不能吃生雞蛋,因?yàn)樯u蛋中有細(xì)菌。
          物質(zhì)都是由分子構(gòu)成的嗎?物質(zhì)都是由分子構(gòu)成的,分子又由原子構(gòu)成-錯(cuò)的!因?yàn)橛行┪镔|(zhì)是不含分子的。


          這些問題,我總結(jié)為兩方面的困難:

          1. 缺乏知識(shí),由于預(yù)訓(xùn)練與微調(diào)領(lǐng)域存在偏差,模型在下游任務(wù)中缺乏特定知識(shí),同時(shí)模型在一些常識(shí)問題上表現(xiàn)較差。

          2. 缺乏深度語義的理解,模型表現(xiàn)的更像通過字面匹配完成任務(wù),推理的成分更弱。

          當(dāng)前研究熱點(diǎn)仍然在于挖掘預(yù)訓(xùn)練模型的能力,但在基于常識(shí)性知識(shí)與邏輯推理的問題上,這種基于數(shù)據(jù)驅(qū)動(dòng)的方式從底層就存在問題。引用一下大咖們對(duì) 2022 年的展望。


          大模型一方面在不少問題上取得了以往難以預(yù)期的成功,另一方面其巨大的訓(xùn)練能耗和碳排放是不能忽視的問題。個(gè)人以為,大模型未來會(huì)在一些事關(guān)國(guó)計(jì)民生的重大任務(wù)上發(fā)揮作用,而在其他一些場(chǎng)景下或許會(huì)通過類似集成學(xué)習(xí)的手段來利用小模型,尤其是通過很少量訓(xùn)練來 “復(fù)用” 和集成已有的小模型來達(dá)到不錯(cuò)的性能。


          我們提出了一個(gè)叫做 “學(xué)件” 的思路,目前在做一些這方面的探索。大致思想是,假設(shè)很多人已經(jīng)做了模型并且樂意放到某個(gè)市場(chǎng)去共享,市場(chǎng)通過建立規(guī)約來組織和管理學(xué)件,以后的人再做新應(yīng)用時(shí),就可以不用從頭收集數(shù)據(jù)訓(xùn)練模型,可以先利用規(guī)約去市場(chǎng)里找找看是否有比較接近需求的模型,然后拿回家用自己的數(shù)據(jù)稍微打磨就能用。這其中還有一些技術(shù)挑戰(zhàn)需要解決,我們正在研究這個(gè)方向。


          另一方面,有可能通過利用人類的常識(shí)和專業(yè)領(lǐng)域知識(shí),使模型得以精簡(jiǎn),這就要結(jié)合邏輯推理和機(jī)器學(xué)習(xí)。邏輯推理比較善于利用人類知識(shí),機(jī)器學(xué)習(xí)比較善于利用數(shù)據(jù)事實(shí),如何對(duì)兩者進(jìn)行有機(jī)結(jié)合一直是人工智能中的重大挑戰(zhàn)問題。麻煩的是邏輯推理是嚴(yán)密的基于數(shù)理邏輯的 “從一般到特殊”的演繹過程,機(jī)器學(xué)習(xí)是不那么嚴(yán)密的概率近似正確的 “從特殊到一般”的歸納過程,在方法論上就非常不一樣。已經(jīng)有的探索大體上是以其中某一方為倚重,引入另一方的某些成分,我們最近在探索雙方相對(duì)均衡互促利用的方式。


          談?wù)勛约旱睦斫猓?strong>預(yù)訓(xùn)練模型的方式歸根到底仍然屬于數(shù)據(jù)驅(qū)動(dòng)的任務(wù),其通過在大規(guī)模數(shù)據(jù)上學(xué)習(xí),推斷未知數(shù)據(jù)的概率。如果說數(shù)據(jù)中存在表述不準(zhǔn)確、表述有歧義或者詞匯本身就有多個(gè)含義的話,以概率的方式難以解決這些問題。?

          而人腦在未知問題上,推理成分居多,以一詞多義為例,人類會(huì)考慮該詞匯有幾種用法,考慮在這種上下文語境下使用哪一種用法,所以是否可以建立一套類似于標(biāo)準(zhǔn)公理的語言規(guī)范,以該規(guī)范為基礎(chǔ),對(duì)未知句子進(jìn)行拆解推理,理解句子的完整含義。通過了解模型的推理過程,模型的可解釋性增強(qiáng)。當(dāng)預(yù)測(cè)錯(cuò)誤時(shí),我們可以進(jìn)行溯源分析,對(duì)模型依賴的知識(shí)進(jìn)行調(diào)整,或者讓模型學(xué)習(xí)的更充分。

          接下來對(duì)自己 2022 年的期望:

          1. 自身學(xué)習(xí)更多模型結(jié)構(gòu)變化的同時(shí),更多地理解業(yè)務(wù)的架構(gòu),明白模型在業(yè)務(wù)中起的作用。

          2. 在算法研究上能夠研究的更加深入,希望能夠找到解決上述困難的方法



          回顧自身算法經(jīng)歷


          2021 年自身的算法經(jīng)歷主要分為:實(shí)習(xí)、算法比賽、項(xiàng)目、論文四部分。在這些經(jīng)歷里面主要接觸分類、閱讀理解、信息抽取三種任務(wù),評(píng)估方式均采用精確率、召回率及 F1 值。下面將以這些經(jīng)歷為基礎(chǔ),介紹我處理這些任務(wù)的方式。

          5.1 需求分析


          開展算法工作之前,首先要搞清楚算法需要滿足什么樣的需求。包括:

          • 業(yè)務(wù)屬于什么樣的任務(wù)

          • 算法需要側(cè)重的方向

          • 訓(xùn)練數(shù)據(jù)及線上數(shù)據(jù)的情況

          • 線上的指標(biāo)

          • 線下的評(píng)估方式

          • ……

          需求分析的目的在于了解業(yè)務(wù)的需求與算法在業(yè)務(wù)中起到的作用。

          5.2 模型選型及設(shè)計(jì)


          在明白需求之后,需要根據(jù)任務(wù)類型選擇模型,并根據(jù)需求的不同,對(duì)模型結(jié)構(gòu)進(jìn)行調(diào)整。如閱讀理解任務(wù)下:針對(duì)多答案、無答案的情況,我們需要調(diào)整模型的結(jié)構(gòu)。

          模型選型及設(shè)計(jì)的目的在于選擇或設(shè)計(jì)能夠很好地滿足業(yè)務(wù)需求的模型。

          5.3 數(shù)據(jù)分析


          數(shù)據(jù)分析這一步是最重要的一步,當(dāng)前模型主要還是以數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)對(duì)模型的影響很大。

          我主要從以下角度進(jìn)行分析:

          • 數(shù)據(jù)是否存在噪聲:標(biāo)點(diǎn)、大小寫、特殊符號(hào)等
          • 訓(xùn)練集測(cè)試集分布是否存在差異,測(cè)試集能否反映模型在具體業(yè)務(wù)下的表現(xiàn)
          • 數(shù)據(jù)存在哪些特征,通過引入額外的特征,模型可以表現(xiàn)地更好
          • 訓(xùn)練集分布:標(biāo)簽分布、長(zhǎng)度分布等,是否會(huì)給模型帶來類別不均衡、長(zhǎng)文本等問題
          • 數(shù)據(jù)量大小,數(shù)據(jù)量足夠時(shí)可以繼續(xù)預(yù)訓(xùn)練


          數(shù)據(jù)分析的目的在于數(shù)據(jù)能否充分發(fā)揮模型性能,能否得到符合業(yè)務(wù)需求的模型


          5.4 模型訓(xùn)練及優(yōu)化


          模型進(jìn)行訓(xùn)練,開始煉丹【調(diào)參】。

          • 設(shè)置合適的超參數(shù)【可以通過一些超參數(shù)搜索算法】

          • 選擇合適的優(yōu)化器【adam/adamw/sgd】

          • 學(xué)習(xí)率調(diào)整的策略


          進(jìn)階版:

          • 對(duì)抗訓(xùn)練
          • 對(duì)比學(xué)習(xí)
          • UDA等數(shù)據(jù)增強(qiáng)方式
          • 繼續(xù)預(yù)訓(xùn)練
          • 多任務(wù)學(xué)習(xí)
          • 偽標(biāo)簽
          • SWA
          • ……

          5.5 分析負(fù)例


          該過程同樣重要,我們需要了解模型在測(cè)試數(shù)據(jù)上的表現(xiàn)情況,在什么數(shù)據(jù)表現(xiàn)較差,如何優(yōu)化這些負(fù)例。

          在優(yōu)化過程中,建議記錄每一次優(yōu)化信息,分析模型的提升/降低是否符合自己預(yù)期,充分利用每一次實(shí)驗(yàn)

          下面總結(jié)了我在優(yōu)化過程常用的分析方式:

          5.5.1 檢查數(shù)據(jù)質(zhì)量是否過差


          這種情況通常表現(xiàn)為數(shù)據(jù)質(zhì)量較差,模型在原始數(shù)據(jù)上表現(xiàn)不佳,精確率與召回率都很低。針對(duì)這種情況,需要對(duì)數(shù)據(jù)做必要的預(yù)處理,讓模型能夠更好地學(xué)習(xí)。


          5.5.2 根據(jù)指標(biāo)進(jìn)行分析


          recall低


          ???????

          召回率表示召回的數(shù)量,測(cè)試集數(shù)據(jù)未召回較多,則從下列角度檢查數(shù)據(jù):


          1. 訓(xùn)練集測(cè)試集數(shù)據(jù)差異是否較大,即訓(xùn)練集中是否存在類似數(shù)據(jù),若不存在則引入更多數(shù)據(jù)或者對(duì)該數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。這種情況,常見原因?yàn)閿?shù)據(jù)分布不均衡-少數(shù)數(shù)據(jù)訓(xùn)練不充分;訓(xùn)練集、測(cè)試集分布差異較大導(dǎo)致。
          2. 訓(xùn)練集中存在類似數(shù)據(jù),檢查訓(xùn)練集中該種情況有無標(biāo)注錯(cuò)誤:漏標(biāo)、錯(cuò)標(biāo)。


          precision低


          精確率表示預(yù)測(cè)出的準(zhǔn)確率,測(cè)試集數(shù)據(jù)分錯(cuò)的較多:

          1. 檢查數(shù)據(jù)分布,是否數(shù)據(jù)分布不均衡。數(shù)據(jù)不均衡導(dǎo)致模型傾向于預(yù)測(cè)數(shù)量較多的數(shù)據(jù),精確率下降。

          2. 標(biāo)簽定義是否準(zhǔn)確,是否存在兩類標(biāo)簽混淆的情況。這種情況,需要考慮對(duì)標(biāo)簽進(jìn)行融合。

          類別不均衡常用解決方式:

          • 數(shù)據(jù)增強(qiáng)

          • resample

          • reweight

          • 集成學(xué)習(xí)


          數(shù)據(jù)錯(cuò)誤常用解決方式:

          • 交叉驗(yàn)證

          • 置信學(xué)習(xí)

          • 聚類分析


          接下來的過程則是迭代分析,直到模型性能符合業(yè)務(wù)需求。
          瀏覽 50
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美黑人操逼网站 | 以及视频片又粗又猛 | 欧美一级A片视频 | 美女肏逼视频免费看黄色 | 日韩中文网 |