<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          大語言模型評(píng)測(cè)方法全面總結(jié)!

          共 9880字,需瀏覽 20分鐘

           ·

          2024-07-27 00:00

          自2017年Transformer模型提出以來,自然語言處理研究逐步轉(zhuǎn)向基于該框架的預(yù)訓(xùn)練模型,如BERT、GPT、BART和T5等。這些預(yù)訓(xùn)練模型與下游任務(wù)適配后,持續(xù)刷新最優(yōu)結(jié)果。然而,現(xiàn)有評(píng)測(cè)方法存在廣度和深度不足、數(shù)據(jù)偏差、忽視模型其他能力或?qū)傩栽u(píng)估等問題。因此,需要全面評(píng)測(cè)和深入研究模型的各項(xiàng)能力、屬性、應(yīng)用局限性、潛在風(fēng)險(xiǎn)及其可控性等。

          本文回顧了自然語言處理中的評(píng)測(cè)基準(zhǔn)與指標(biāo),將大語言模型評(píng)估分為經(jīng)典和新型評(píng)測(cè)范式,分析了現(xiàn)有評(píng)測(cè)的不足。接著介紹了全面的大語言模型評(píng)測(cè)思想、相關(guān)指標(biāo)和方法,并總結(jié)了當(dāng)前廣受關(guān)注的大語言模型評(píng)測(cè)新方向。需要說明的是,本文所指的大語言模型并非嚴(yán)格限定規(guī)模,而是指以預(yù)訓(xùn)練為基礎(chǔ)、具有通用能力的語言模型。

          1  自然語言處理的評(píng)測(cè)范式

          自然語言處理的發(fā)展得益于自然語言處理評(píng)測(cè)。評(píng)測(cè)通常依賴于一系列評(píng)測(cè)基準(zhǔn),模型在這些基準(zhǔn)數(shù)據(jù)集上運(yùn)行并產(chǎn)生輸出結(jié)果,評(píng)測(cè)系統(tǒng)據(jù)此返回一個(gè)代表模型能力的值。最簡(jiǎn)單的評(píng)測(cè)基準(zhǔn)由單一任務(wù)上的單一數(shù)據(jù)集構(gòu)成,這也是常見的自然語言處理基本評(píng)測(cè)模式。為了全面評(píng)估大語言模型,可以將多個(gè)數(shù)據(jù)集聚合和重新組織,形成一個(gè)更通用的評(píng)測(cè)基準(zhǔn)。本章針對(duì)大語言模型的評(píng)估對(duì)評(píng)測(cè)范式進(jìn)行了分類,將其分為經(jīng)典評(píng)測(cè)范式和新型評(píng)測(cè)范式。表1列出了一些典型的評(píng)測(cè)基準(zhǔn)。下面將分別介紹經(jīng)典評(píng)測(cè)范式,以及面向多種能力的新型評(píng)測(cè)范式與現(xiàn)有評(píng)測(cè)的不足。

          表1 一些典型的評(píng)測(cè)基準(zhǔn)

          1.1  經(jīng)典的自然語言處理評(píng)測(cè)

          自然語言處理分為自然語言理解(NLU)和自然語言生成(NLG)兩大類,但在經(jīng)典評(píng)測(cè)范式下主要關(guān)注模型最終輸出結(jié)果與參考答案的匹配程度。經(jīng)典評(píng)測(cè)結(jié)構(gòu)如圖1所示。

          圖1 經(jīng)典評(píng)測(cè)的結(jié)構(gòu)

          1.1.1  自然語言理解能力評(píng)測(cè)

          自然語言理解能力評(píng)測(cè)是指對(duì)模型在理解自然語言方面的能力進(jìn)行評(píng)估。常見的自然語言理解任務(wù)有情感分析、文本匹配、文本分類和閱讀理解等。針對(duì)具體的任務(wù)已有大量的相關(guān)評(píng)測(cè)基準(zhǔn)。例如,GLUE是一個(gè)包含9個(gè)自然語言理解任務(wù)的評(píng)測(cè)基準(zhǔn),包括情感分析、文本蘊(yùn)含、句子相似性等。XTREME是一個(gè)大規(guī)模、多任務(wù)、多語言的模型評(píng)測(cè)基準(zhǔn),涉及40種不同的語言,共9個(gè)任務(wù)。在中文信息處理方面,CLUE是一個(gè)大規(guī)模的中文理解評(píng)測(cè)基準(zhǔn),包含文本分類、閱讀理解、自然語言推理等多個(gè)中文自然語言理解任務(wù)和一個(gè)診斷評(píng)估數(shù)據(jù)集。

          1.1.2  自然語言生成能力評(píng)測(cè)

          自然語言生成能力評(píng)測(cè)是指對(duì)模型在生成自然語言方面的能力進(jìn)行評(píng)估。常見的自然語言生成任務(wù)包括機(jī)器翻譯、生成式文本摘要、自動(dòng)對(duì)話等。針對(duì)這些任務(wù),已有大量的相關(guān)評(píng)測(cè)基準(zhǔn)。例如,BLEU是評(píng)測(cè)機(jī)器翻譯任務(wù)中譯文質(zhì)量的一個(gè)重要指標(biāo),通過衡量模型生成譯文與參考譯文之間的N-gram匹配程度來計(jì)算得分。此外,還有METEOR、ROUGE等指標(biāo)用于評(píng)估生成式文本摘要和問題生成等任務(wù)的生成質(zhì)量。

          1.1.3  同時(shí)考慮理解和生成的能力評(píng)測(cè)

          針對(duì)大語言模型的迅速發(fā)展及其在下游任務(wù)上的廣泛應(yīng)用,僅評(píng)估模型某一種能力的評(píng)測(cè)基準(zhǔn)無法滿足評(píng)測(cè)需求。因此,許多新的更為全面的評(píng)測(cè)基準(zhǔn)不斷推出,這些基準(zhǔn)通常聚合多個(gè)數(shù)據(jù)集、多個(gè)任務(wù)以及多個(gè)評(píng)測(cè)指標(biāo)來對(duì)模型進(jìn)行更全面的能力評(píng)測(cè)。例如,北京大學(xué)、清華大學(xué)和北京智源人工智能研究院等研究機(jī)構(gòu)聯(lián)合提出了一個(gè)評(píng)估漢語理解和生成能力的評(píng)測(cè)基準(zhǔn) CUGE,涵蓋了 7 種重要的語言功能,包括字句級(jí)別的語言理解能力、語篇級(jí)別的語言理解能力、信息獲取和問答能力、語言生成能力、對(duì)話式交互能力、多語言能力和數(shù)學(xué)推理能力,進(jìn)一步細(xì)分到 18 個(gè)主流 NLP 任務(wù)。

          1.2  面向多種能力的新型評(píng)測(cè)范式

          新型評(píng)測(cè)范式注重大型語言模型在理解和生成能力的基礎(chǔ)上,還考量模型是否符合社會(huì)道德準(zhǔn)則。這種范式為研究者提供了更多維度和深層次的評(píng)估方法,有助于推動(dòng)自然語言處理技術(shù)的持續(xù)進(jìn)步和完善。

          1.2.1  多種屬性的能力評(píng)測(cè)

          為了追蹤大語言模型的規(guī)模對(duì)模型表現(xiàn)的影響,研究者們提出了多種屬性的能力評(píng)測(cè),包括知識(shí)運(yùn)用能力、數(shù)學(xué)推理能力、幻覺檢測(cè)能力等。這些評(píng)測(cè)基準(zhǔn)既包含最初為人類設(shè)計(jì)的模擬考試,也包含在傳統(tǒng)自然語言處理任務(wù)上用來評(píng)估語言模型的評(píng)測(cè)基準(zhǔn)。例如,TriviaQA 和 OpenBookQA 用于評(píng)估大語言模型的知識(shí)運(yùn)用能力,GSM 8 k 用于評(píng)估大語言模型的數(shù)學(xué)推理能力,HaluEval 用于評(píng)估大語言模型的幻覺檢測(cè)能力。這些評(píng)測(cè)基準(zhǔn)有助于更全面地評(píng)估大語言模型的性能

          1.2.2  模型評(píng)測(cè)實(shí)例———GPT-4的評(píng)測(cè)

          OpenAI使用一系列評(píng)測(cè)基準(zhǔn)評(píng)估GPT-4的表現(xiàn),包括為人類設(shè)計(jì)的模擬考試和傳統(tǒng)自然語言處理任務(wù)上的評(píng)測(cè)基準(zhǔn)。模擬考試包括SAT Math和Leetcode,主要考察數(shù)學(xué)問題和綜合代碼能力。傳統(tǒng)自然語言處理任務(wù)上的評(píng)測(cè)基準(zhǔn)包括MMLU、HellaSwag4、HumanEval1和DROP,分別考察大語言模型將知識(shí)運(yùn)用于問題解決的能力、常識(shí)性推理能力、代碼生成能力和閱讀理解與數(shù)值推理能力。評(píng)測(cè)結(jié)果表明,GPT-4在大多數(shù)專業(yè)類考試和學(xué)術(shù)類考試中表現(xiàn)與人類相當(dāng),在多個(gè)傳統(tǒng)的自然語言處理評(píng)測(cè)基準(zhǔn)上達(dá)到最先進(jìn)效果,并展現(xiàn)出處理低資源語言的能力。

          微軟研究人員以人類級(jí)別認(rèn)知能力與現(xiàn)實(shí)世界緊密聯(lián)系為原則,提出了以人為中心的評(píng)測(cè)基準(zhǔn)AGIEval,并在其上評(píng)測(cè)了GPT-4和ChatGPT等大語言模型的表現(xiàn)。AGIEval的評(píng)測(cè)數(shù)據(jù)來自高標(biāo)準(zhǔn)化、官方的人類考試題,如GRE、SAT、中國(guó)高考、LSAT、AMC和中國(guó)公務(wù)員考試等。與文獻(xiàn)[35]不同,AGIEval只保留客觀題(多項(xiàng)選擇和填空),以更標(biāo)準(zhǔn)和自動(dòng)地評(píng)測(cè)大語言模型。評(píng)測(cè)包括零樣本學(xué)習(xí)、小樣本學(xué)習(xí)、零樣本思維鏈和小樣本思維鏈四種設(shè)置。結(jié)果顯示,GPT-4在LSAT、SAT和數(shù)學(xué)競(jìng)賽中超越人類平均表現(xiàn),SAT數(shù)學(xué)考試準(zhǔn)確率達(dá)95%。然而,大語言模型在需要復(fù)雜推理或特定領(lǐng)域知識(shí)的任務(wù)上表現(xiàn)不佳。此外,與GPT-3系列模型相比,GPT-4等大語言模型的零樣本學(xué)習(xí)能力逐漸接近小樣本學(xué)習(xí)能力。

          1.3  現(xiàn)有評(píng)測(cè)的不足

          1.3.1  新生任務(wù)缺乏相應(yīng)的評(píng)測(cè)基準(zhǔn)

          隨著通用大語言模型的發(fā)展,需要更多應(yīng)用場(chǎng)景和任務(wù)來評(píng)估其效果。然而,一些新生任務(wù)缺乏評(píng)測(cè)基準(zhǔn),這限制了該領(lǐng)域的發(fā)展。評(píng)測(cè)基準(zhǔn)是評(píng)估模型性能和比較不同模型的關(guān)鍵,缺乏它會(huì)使得研究人員難以準(zhǔn)確評(píng)估模型性能,也難以對(duì)新生算法和模型進(jìn)行有效評(píng)估和比較。此外,缺乏評(píng)測(cè)基準(zhǔn)也會(huì)影響對(duì)新生任務(wù)的理解和定義。因此,建立評(píng)測(cè)基準(zhǔn)對(duì)于模型在新生任務(wù)上的應(yīng)用研究至關(guān)重要,也能幫助研究者更好地理解大語言模型在新生任務(wù)中的應(yīng)用潛力。

          1.3.2  評(píng)測(cè)任務(wù)缺乏區(qū)分度

          隨著大語言模型能力的增強(qiáng),其在一些評(píng)測(cè)任務(wù)上的表現(xiàn)已與人類相當(dāng),甚至超越人類,導(dǎo)致許多評(píng)測(cè)任務(wù)失去挑戰(zhàn)性和區(qū)分度,難以為研究者提供有價(jià)值的信息。這不僅是評(píng)測(cè)基準(zhǔn)的問題,也反映出大語言模型發(fā)展超出原有評(píng)估任務(wù)范圍的趨勢(shì)。因此,需要更加注重評(píng)測(cè)任務(wù)的區(qū)分度和難度,以確保評(píng)測(cè)結(jié)果具有實(shí)際可參考的意義。

          1.3.3  評(píng)估方式不公平

          評(píng)估方式不公平主要表現(xiàn)在評(píng)估指標(biāo)和數(shù)據(jù)集選擇存在不公平的問題,以及人為因素可能導(dǎo)致評(píng)估結(jié)果的不公平。在評(píng)估指標(biāo)方面,同一任務(wù)下的評(píng)測(cè)數(shù)據(jù)集可能產(chǎn)生模型A在某個(gè)評(píng)測(cè)數(shù)據(jù)集上優(yōu)于模型B,但在另一個(gè)評(píng)測(cè)數(shù)據(jù)集上又劣于模型B的矛盾情況。人為因素也可能導(dǎo)致評(píng)估結(jié)果的不公平,例如人工評(píng)測(cè)中,評(píng)測(cè)人員的背景、觀點(diǎn)和經(jīng)驗(yàn)可能影響他們對(duì)模型的判斷,從而在評(píng)測(cè)結(jié)果中引入人為的偏差。

          1.3.4  評(píng)估不全面

          目前,模型單項(xiàng)能力的評(píng)測(cè)往往簡(jiǎn)化為針對(duì)單個(gè)任務(wù)上的單數(shù)據(jù)集單指標(biāo),無法準(zhǔn)確反映模型在待評(píng)測(cè)能力方面的強(qiáng)弱。例如,自然語言生成能力的評(píng)測(cè)需要考察多個(gè)方面,但不同方面適用不同的評(píng)測(cè)指標(biāo)。不同的任務(wù)和數(shù)據(jù)集會(huì)涉及不同的語言現(xiàn)象和應(yīng)用場(chǎng)景,這是單個(gè)任務(wù)上的單數(shù)據(jù)集單指標(biāo)評(píng)測(cè)有失考量的內(nèi)容。此外,對(duì)模型綜合能力的評(píng)測(cè)大多是單個(gè)評(píng)測(cè)基準(zhǔn)的簡(jiǎn)單聚合,缺乏系統(tǒng)性的交互,也無法全面評(píng)估模型的綜合能力和多種屬性。

          1.3.5 評(píng)測(cè)基準(zhǔn)的污染問題

          評(píng)測(cè)基準(zhǔn)的污染問題是指評(píng)測(cè)數(shù)據(jù)出現(xiàn)在模型訓(xùn)練數(shù)據(jù)中,影響評(píng)測(cè)公正性和可信度。為確保公正性和可信度,評(píng)測(cè)基準(zhǔn)的測(cè)試數(shù)據(jù)不應(yīng)包含在大語言模型訓(xùn)練數(shù)據(jù)中。由于模型訓(xùn)練數(shù)據(jù)龐大,研究者難以確定評(píng)測(cè)基準(zhǔn)是否泄漏。這種污染影響評(píng)測(cè)基準(zhǔn)的公正性和可信度。因此,評(píng)測(cè)基準(zhǔn)構(gòu)建者和使用者需謹(jǐn)慎考慮,確保獨(dú)立性和代表性。未來大語言模型研發(fā)者應(yīng)明確可能存在的污染問題和污染程度。

          1.3.6  評(píng)估結(jié)果缺乏可解釋性

          在大語言模型評(píng)測(cè)中,現(xiàn)有評(píng)估方式缺乏對(duì)評(píng)估結(jié)果的解釋和分析,導(dǎo)致評(píng)估結(jié)果的可解釋性缺失。這種缺失主要表現(xiàn)在兩個(gè)方面:一是數(shù)字化評(píng)估方式難以理解模型在不同任務(wù)和數(shù)據(jù)集上的表現(xiàn)差異;二是缺乏可解釋性難以確定模型在特定任務(wù)上的優(yōu)勢(shì)和劣勢(shì),從而難以針對(duì)性地進(jìn)行優(yōu)化和改進(jìn)。因此,提高評(píng)估結(jié)果的解釋性對(duì)于提高模型性能和優(yōu)化至關(guān)重要。

          2  全面的大語言模型評(píng)測(cè)

          HELM是Liang等人提出的一種全面評(píng)估大語言模型的方法,適用于多個(gè)場(chǎng)景、任務(wù)和評(píng)估指標(biāo)。它篩選出應(yīng)用性的任務(wù)作為評(píng)測(cè)重點(diǎn),并選擇部分主要評(píng)測(cè)數(shù)據(jù)。HELM明確了7個(gè)評(píng)測(cè)指標(biāo),如準(zhǔn)確率,以及7個(gè)更具針對(duì)性的評(píng)估維度,如語言能力、推理能力等。它對(duì)30個(gè)大語言模型在42個(gè)場(chǎng)景和評(píng)測(cè)指標(biāo)下進(jìn)行了評(píng)測(cè)并公開了結(jié)果。然而,HELM也指出了其評(píng)測(cè)中的遺漏和不足,如部分場(chǎng)景和任務(wù)缺失、部分評(píng)估方法不足等。由于部分大模型不再開源,全面評(píng)測(cè)存在困難。HELM將大語言模型視為黑盒,這也是其評(píng)估中的不足之一。評(píng)測(cè)屬性包括準(zhǔn)確率、校準(zhǔn)度、泛化能力、適配能力、魯棒性、效率、偏見和刻板印象、公平性和有害性。

          2.1  準(zhǔn)確率

          準(zhǔn)確率是衡量模型預(yù)測(cè)或生成結(jié)果正確比例的指標(biāo),對(duì)于大語言模型處理自然語言任務(wù)和應(yīng)用至關(guān)重要。準(zhǔn)確率的評(píng)估方法因場(chǎng)景和任務(wù)而異,常見的評(píng)估指標(biāo)包括F1值和Accuracy值(用于判別類問題),BLEU和ROUGE值(用于生成類問題),ExactMatch(用于判別類和生成類問題),ReciprocalRank和NormalizedDiscountedCumulativeGain(用于搜索類問題)。準(zhǔn)確率指標(biāo)在自然語言處理評(píng)測(cè)中廣泛使用,并將繼續(xù)作為重要的評(píng)估指標(biāo)。

          2.2  校準(zhǔn)度

          準(zhǔn)確率衡量模型輸出結(jié)果的正確性,而校準(zhǔn)度則是衡量模型對(duì)輸出結(jié)果賦予的概率的準(zhǔn)確性,即模型預(yù)測(cè)時(shí)給出的置信度對(duì)真實(shí)概率分布進(jìn)行估計(jì)的準(zhǔn)確性。大語言模型的校準(zhǔn)度評(píng)估具有重要意義:首先,有助于提高模型的可靠性,校準(zhǔn)度越高,模型的預(yù)測(cè)結(jié)果就越可靠;其次,有助于改善置信度估計(jì),校準(zhǔn)度可以更好地幫助使用者理解模型的預(yù)測(cè)結(jié)果并在必要時(shí)進(jìn)行人工介入。

          期望校準(zhǔn)誤差(ECE)是評(píng)估模型校準(zhǔn)度的指標(biāo),用于比較模型預(yù)測(cè)概率與實(shí)際概率的差距。它通過將概率區(qū)間劃分為M個(gè)小區(qū)間,計(jì)算每個(gè)區(qū)間內(nèi)預(yù)測(cè)正確的樣例數(shù)與預(yù)測(cè)概率的乘積之和,除以區(qū)間內(nèi)樣例數(shù)得到準(zhǔn)確率。然后計(jì)算每個(gè)區(qū)間的平均置信度,即預(yù)測(cè)概率的平均值。最后,計(jì)算每個(gè)區(qū)間的校準(zhǔn)差距,即準(zhǔn)確率與平均置信度的差值。所有區(qū)間校準(zhǔn)差距的期望值之和即為期望校準(zhǔn)誤差。

          2.3  泛化能力

          模型泛化能力的評(píng)估主要關(guān)注模型在不同數(shù)據(jù)集上的表現(xiàn),尤其是小樣本或零樣本設(shè)置。小樣本是指模型在預(yù)測(cè)時(shí)僅給出少量樣本作為參考,參數(shù)通常不作更新。零樣本則不提供參考樣例,只給出問題文本,由模型直接推理出答案。這兩種評(píng)估方式能較好地體現(xiàn)模型的泛化能力,泛化能力也預(yù)示模型應(yīng)用于下游任務(wù)時(shí)的效果。因此,泛化能力的評(píng)估是評(píng)估大語言模型能否廣泛應(yīng)用于實(shí)際應(yīng)用場(chǎng)景的關(guān)鍵之一,也是未來大型模型評(píng)估的重要組成部分。

          2.4  適配能力

          大模型在特定任務(wù)上的能力可以通過適配增強(qiáng),適配是將原始模型轉(zhuǎn)換成適用于下游具體任務(wù)的過程,適配能力指模型在不同適配策略下的性能優(yōu)劣。適配策略有三種:不更新原模型參數(shù)的適配,增加適配層并調(diào)整適配層參數(shù)的適配,以及對(duì)原模型做全參數(shù)更新的適配。不更新模型參數(shù)的適配通過設(shè)計(jì)提示和上下文例子使模型在下游任務(wù)上獲得更好的效果,但如何選擇合適的提示形式非常重要。增加適配層并調(diào)整適配層參數(shù)的適配是一類高效率,低損耗的適配方法,例如在原有的模型架構(gòu)上添加只含有少量參數(shù)的適配層,固定原模型本身的參數(shù),而只基于梯度更新適配層的參數(shù),從而縮小更新參數(shù)的規(guī)模。一種極端的適配方式是更新模型的全部參數(shù),具體而言,就是利用下游任務(wù)中的數(shù)據(jù)對(duì)模型進(jìn)行再訓(xùn)練,從而迭代更新整個(gè)模型的參數(shù)。

          2.5  魯棒性

          雖然大語言模型性能出色,但數(shù)據(jù)輕微擾動(dòng)可能導(dǎo)致性能大幅下降,即模型魯棒性不強(qiáng)。魯棒性用于衡量模型對(duì)輸入數(shù)據(jù)中的擾動(dòng)或噪聲的抵抗能力。評(píng)估模型魯棒性的方法之一是對(duì)文本輸入進(jìn)行擾動(dòng),觀察模型輸出的變化。擾動(dòng)分為對(duì)抗擾動(dòng)和非對(duì)抗擾動(dòng)。對(duì)抗擾動(dòng)是為了誤導(dǎo)模型做出錯(cuò)誤預(yù)測(cè)而故意對(duì)輸入內(nèi)容進(jìn)行修改,對(duì)模型的預(yù)測(cè)結(jié)果會(huì)產(chǎn)生明顯影響。非對(duì)抗擾動(dòng)則是對(duì)輸入內(nèi)容更自然和隨機(jī)的改動(dòng),用于模擬現(xiàn)實(shí)世界中輸入的復(fù)雜情況。對(duì)抗擾動(dòng)可以用來評(píng)估模型對(duì)惡意輸入的處理能力,而非對(duì)抗擾動(dòng)可用于衡量模型在現(xiàn)實(shí)世界中面對(duì)有自然誤差的輸入時(shí)的表現(xiàn)。在評(píng)估大語言模型時(shí),需要綜合考慮這兩種擾動(dòng)類型的影響,以更全面地評(píng)估模型的魯棒性。

          2.6  效率

          大語言模型的效率至關(guān)重要,包括訓(xùn)練效率和推理效率。訓(xùn)練效率指模型訓(xùn)練時(shí)的復(fù)雜程度,而推理效率則是模型在不更新參數(shù)的情況下的推理復(fù)雜度。評(píng)估指標(biāo)包括能量消耗、二氧化碳排放量、參數(shù)個(gè)數(shù)、FLOPS、實(shí)際推理時(shí)間和執(zhí)行層數(shù)等。評(píng)估這些指標(biāo)有助于研究人員選擇合適的模型來滿足應(yīng)用需求。

          2.7  偏見和刻板印象

          大語言模型在應(yīng)用中可能表現(xiàn)出歧視行為,這是由于其潛在的偏見和刻板印象。評(píng)估模型中的偏見和刻板印象的方法主要分為兩類:基于表示端的評(píng)估方法和基于生成端的評(píng)估方法。基于表示端的評(píng)估方法主要利用詞向量在語義向量空間中的幾何關(guān)系表征詞匯間的關(guān)聯(lián)程度,從而反映語言模型中的偏見和刻板印象。基于生成端的評(píng)估方法側(cè)重于利用模型的生成來衡量其偏見程度。然而,這些評(píng)估方法通常需要依賴人工篩選的詞表集合來代表某個(gè)待測(cè)群體或某類屬性標(biāo)簽,這可能會(huì)引入篩選者的固有偏見。目前,NLP社區(qū)對(duì)于偏見的評(píng)估仍然存在一些問題,例如偏見的界定標(biāo)準(zhǔn)模糊不清,某些評(píng)估方式與模型在下游應(yīng)用上表現(xiàn)的相關(guān)性并不明確,對(duì)其他形式的偏見(如宗教,國(guó)家等)研究較少,非英語語境下的偏見評(píng)估尚缺乏相關(guān)研究等。

          2.8  公平性

          大語言模型在下游任務(wù)中的準(zhǔn)確率不斷提高,但公平性問題也逐漸受到關(guān)注。公平性關(guān)注模型在特定下游任務(wù)中針對(duì)不同特征群體的性能差距,而偏見和刻板印象是指大語言模型內(nèi)部的某種固有屬性。目前,模型公平性評(píng)估可以分為預(yù)測(cè)公平性、機(jī)會(huì)平等性和反事實(shí)公平性評(píng)估。隨著大語言模型的發(fā)展,其能力范圍和應(yīng)用形式可能更廣泛,現(xiàn)有的基于單語言、單模態(tài)的公平性評(píng)測(cè)范式需要進(jìn)一步迭代以適應(yīng)更廣泛的群體特征和更復(fù)雜交融的語言背景。

          2.9  有害性

          大語言模型的有害性是指其生成有害言論的能力。這在社交媒體和互聯(lián)網(wǎng)上可能產(chǎn)生不良影響。評(píng)估其有害性的方法之一是使用有害性檢測(cè)系統(tǒng),如HateBERT和Perspective API。然而,有害言論的定義并不統(tǒng)一,這給系統(tǒng)開發(fā)帶來了復(fù)雜性。開發(fā)者需考慮系統(tǒng)設(shè)計(jì)的合理性、數(shù)據(jù)集標(biāo)注的準(zhǔn)確性和偏見問題,同時(shí)平衡準(zhǔn)確率和公平性,避免過度懲罰或忽視某些群體。提高系統(tǒng)的開源性和透明度將增強(qiáng)有害性評(píng)測(cè)的準(zhǔn)確度和公平性。

          3  大語言模型評(píng)測(cè)的一些新方向

          自ChatGPT推出以來,生成式大語言模型影響日益增大,傳統(tǒng)生成式評(píng)測(cè)方法面臨挑戰(zhàn)。研究者探索新評(píng)測(cè)模式,如基于模型的評(píng)測(cè)、幻覺問題評(píng)測(cè)和元評(píng)測(cè)。這些研究彌補(bǔ)了傳統(tǒng)評(píng)測(cè)的不足,為評(píng)價(jià)模型性能(尤其是自然語言生成任務(wù))提供了更精準(zhǔn)、穩(wěn)定和可靠的評(píng)估結(jié)果。

          3.1  基于模型的評(píng)測(cè)

          自然語言生成領(lǐng)域的自動(dòng)化評(píng)測(cè)方法,如BLEU和ROUGE,主要基于“形式匹配”,存在對(duì)語義的忽視、對(duì)參考文本的依賴和難以抓住不同任務(wù)間的細(xì)微差別等問題。為了克服這些局限性,研究者開始探索基于模型的評(píng)測(cè)方法,尤其是基于大語言模型的評(píng)測(cè)方法。這些方法使用預(yù)先構(gòu)建的評(píng)估模型對(duì)任務(wù)模型進(jìn)行評(píng)測(cè),具有強(qiáng)大的表示學(xué)習(xí)能力和語義理解能力,能更好地捕捉到不同生成任務(wù)之間的細(xì)微差別,與人類評(píng)測(cè)之間也有更好的相關(guān)性。基于模型的評(píng)測(cè)方法有很多,其中,有代表性的基于模型的評(píng)測(cè)方法包括依賴參考文本的BERTScore,不依賴參考文本的GPTScore、Kocmi & Federmann和PandaLM。

          3.1.1  BERTScore

          BERTScore是一種基于BERT的評(píng)測(cè)方法,通過計(jì)算待測(cè)文本與參考文本之間的余弦相似度來評(píng)估文本的相似性。它首先利用BERT的詞嵌入來得到參考文本和待測(cè)文本的編碼向量,然后通過待測(cè)文本中每個(gè)token與參考文本中每個(gè)token的余弦相似度來計(jì)算精確度和召回率,最后根據(jù)精確度和召回率來計(jì)算F1值。BERTScore的計(jì)算結(jié)構(gòu)如圖2所示。


          圖2 BERTScore的計(jì)算結(jié)構(gòu)

          3.1.2  BERTforMTE

          BERT for MTE是一種基于BERT的評(píng)測(cè)方法,通過句子對(duì)編碼的方式同時(shí)編碼待測(cè)文本和參考文本,并使用基于MLP的回歸模型得到最后的指標(biāo)分?jǐn)?shù)。

          3.1.3  GPTScore

          GPTScore是一種基于大語言模型的評(píng)測(cè)方法,其核心在于給定指令和原文本后,經(jīng)過預(yù)訓(xùn)練的大語言模型會(huì)對(duì)更高質(zhì)量的生成內(nèi)容賦予更大的生成概率。

          3.1.4  Kocmi& Federmann

          Kocmi& Federmann是一種基于大語言模型的評(píng)測(cè)方法,旨在通過擬人化方式評(píng)估生成任務(wù)。該方法使用提示工程,將指令d、上下文信息S和待測(cè)文本組合成類似人類評(píng)估的模板,輸入給預(yù)訓(xùn)練的大語言模型。模型直接輸出評(píng)分,作為任務(wù)指標(biāo)分?jǐn)?shù)。

          3.1.5  PandaLM

          PandaLM是一種基于比較的評(píng)測(cè)模型,它專注于在指令調(diào)優(yōu)的語境下根據(jù)生成內(nèi)容在各種候選任務(wù)模型中選出最優(yōu)秀的模型。PandaLM由LLaMA-7 B[136]調(diào)優(yōu)得到,利用大語言模型的泛化能力,能夠通過對(duì)指令的設(shè)計(jì)更好地抓住不同生成任務(wù)上對(duì)評(píng)測(cè)需求的微妙差異,如簡(jiǎn)潔性、清晰度、全面性、正式性等。此外,PandaLM還可以同時(shí)識(shí)別和糾正任務(wù)模型的錯(cuò)誤。


          圖3 PandaLM 的評(píng)測(cè)結(jié)構(gòu)圖

          未來可能的基于模型評(píng)測(cè)的研究方向包括:

          • 更具魯棒性的指標(biāo):開發(fā)更具魯棒性的基于模型的評(píng)測(cè)指標(biāo),以降低噪聲對(duì)評(píng)測(cè)結(jié)果的影響,提高評(píng)測(cè)結(jié)果的穩(wěn)定性和可靠性。

          • 更可靠的評(píng)測(cè)方法:進(jìn)一步發(fā)展更加可靠的基于模型的評(píng)測(cè)方法,增強(qiáng)評(píng)測(cè)結(jié)果的可信度。

          • 知識(shí)增強(qiáng)的評(píng)測(cè)方法:探索將特定知識(shí)注入到大語言模型中的方法,從而提高基于大語言模型的評(píng)測(cè)方法在某些專業(yè)領(lǐng)域的表現(xiàn)。

          • 細(xì)粒度評(píng)估與可解釋性增強(qiáng):關(guān)注評(píng)測(cè)模型在生成內(nèi)容的更細(xì)粒度劃分上的評(píng)估方式及可解釋性。

          • 擺脫對(duì)參考文本的依賴:探索如何利用大語言模型的零樣本或小樣本泛化能力來擺脫生成式任務(wù)評(píng)測(cè)中對(duì)參考文本的依賴,從而獲得更易泛化和遷移的評(píng)測(cè)方法、評(píng)測(cè)指標(biāo)和更準(zhǔn)確的評(píng)測(cè)結(jié)果。

          • 人機(jī)協(xié)作評(píng)測(cè):嘗試提出結(jié)合基于模型評(píng)測(cè)和人類評(píng)測(cè)的有效方式,從而提高人類評(píng)測(cè)的可用性和基于模型評(píng)測(cè)的準(zhǔn)確性。

          3.2  幻覺問題的評(píng)測(cè)

          生成式大語言模型在文本質(zhì)量和流暢性方面有所提升,但也可能產(chǎn)生不準(zhǔn)確信息,即“幻覺”現(xiàn)象,影響實(shí)用性和可靠性。幻覺分為內(nèi)在和外在兩類,評(píng)估方法分為非大語言模型和基于大語言模型兩類。非大語言模型方法包括統(tǒng)計(jì)、信息抽取、生成式問答和句子級(jí)別分類等,而基于大語言模型的方法通過理解和生成能力來評(píng)估文本的幻覺度,有直接和間接兩種評(píng)測(cè)方法。直接評(píng)測(cè)法利用大語言模型作為代理,通過模板設(shè)計(jì)完成人類評(píng)測(cè)員的工作;間接評(píng)測(cè)法則利用模型生成能力,結(jié)合其他評(píng)測(cè)指標(biāo)和方法,得到綜合度量指標(biāo),能處理復(fù)雜語義關(guān)系,評(píng)測(cè)復(fù)雜幻覺現(xiàn)象,如邏輯錯(cuò)誤、事實(shí)錯(cuò)誤等,并提供幻覺的詳細(xì)信息。但需注意,評(píng)測(cè)模型本身也可能產(chǎn)生幻覺,如何控制是一個(gè)挑戰(zhàn)。

          幻覺評(píng)測(cè)在未來可能的研究方向有:

          • 改進(jìn)幻覺檢測(cè)。現(xiàn)有方法在處理復(fù)雜或模糊語義時(shí)存在挑戰(zhàn)。未來研究應(yīng)探索更復(fù)雜的模型和算法以提高準(zhǔn)確性和效率,并研究如何利用無標(biāo)簽或弱標(biāo)簽數(shù)據(jù)提高性能。

          • 深入研究幻覺生成機(jī)制。全面評(píng)測(cè)有助于研究者深入了解幻覺產(chǎn)生原因,進(jìn)而發(fā)展更全面和針對(duì)性的評(píng)測(cè)方法。需要研究模型內(nèi)部工作機(jī)制,包括語言理解和生成過程,以及訓(xùn)練過程中的因素。

          • 設(shè)計(jì)通用幻覺評(píng)測(cè)方法。針對(duì)自然語言生成中不同任務(wù),需要設(shè)計(jì)與任務(wù)無關(guān)的通用評(píng)測(cè)方法。需要深入理解幻覺本質(zhì)和不同任務(wù)中的共性與特性,同時(shí)考慮任務(wù)對(duì)幻覺的容忍度。設(shè)計(jì)能夠捕捉任務(wù)間細(xì)微差別、與人類判斷高度相關(guān)的評(píng)測(cè)指標(biāo)是當(dāng)前的挑戰(zhàn)。

          3.3  元評(píng)測(cè)

          大語言模型的評(píng)測(cè)中,元評(píng)測(cè)至關(guān)重要。元評(píng)測(cè)旨在評(píng)估評(píng)測(cè)指標(biāo)的有效性和可靠性,即評(píng)測(cè)的再評(píng)測(cè)。其核心目的是判斷評(píng)測(cè)方法與人類評(píng)測(cè)的相關(guān)程度,對(duì)確保評(píng)測(cè)質(zhì)量、減少誤差及提升結(jié)果可信度具有關(guān)鍵作用。隨著大型語言模型在各領(lǐng)域廣泛應(yīng)用,評(píng)測(cè)方法本身的準(zhǔn)確度和可信度日益受到關(guān)注。對(duì)比不同評(píng)測(cè)方法,研究者能發(fā)現(xiàn)各自優(yōu)勢(shì)和局限,從而選擇更適合特定任務(wù)和場(chǎng)景的評(píng)測(cè)方法,準(zhǔn)確衡量模型性能。元評(píng)測(cè)中常見的相關(guān)性計(jì)算方法包括皮爾遜相關(guān)系數(shù)、斯皮爾曼秩相關(guān)系數(shù)和肯德爾等級(jí)相關(guān)系數(shù)。

          皮爾遜相關(guān)系數(shù)是一種衡量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度的指標(biāo),適用于存在較強(qiáng)線性關(guān)系的情況。它對(duì)非線性關(guān)系的敏感度較低,且受異常值的影響較大。然而,數(shù)據(jù)分布的偏態(tài)可能導(dǎo)致相關(guān)系數(shù)的失真,因此不適用于存在復(fù)雜非線性關(guān)系或數(shù)據(jù)中存在嚴(yán)重異常值或偏態(tài)的情況。

          斯皮爾曼相關(guān)系數(shù)是一種衡量?jī)蓚€(gè)變量之間單調(diào)關(guān)系的指標(biāo),基于數(shù)據(jù)的秩次計(jì)算,對(duì)異常值和偏態(tài)數(shù)據(jù)較為魯棒,可以捕捉非線性關(guān)系。但是只能反映兩個(gè)變量間的單調(diào)關(guān)系,當(dāng)變量之間存在多種依賴關(guān)系時(shí),只靠斯皮爾曼相關(guān)系數(shù)可能難以區(qū)分。

          肯德爾τ系數(shù)是一種基于數(shù)據(jù)秩次的系數(shù),用于衡量?jī)蓚€(gè)變量之間的共同趨勢(shì)。與斯皮爾曼相關(guān)系數(shù)類似,肯德爾τ系數(shù)是基于數(shù)據(jù)的秩次,因此對(duì)異常值和偏態(tài)數(shù)據(jù)較為魯棒。但是肯德爾τ系數(shù)的計(jì)算需要枚舉每一對(duì)數(shù)據(jù)點(diǎn)對(duì),因此在小樣本數(shù)據(jù)中表現(xiàn)較好,面對(duì)大樣本數(shù)據(jù)時(shí)計(jì)算效率較低。

          元評(píng)測(cè)的研究方向包括:

          • 更細(xì)粒度的元評(píng)測(cè):評(píng)估各評(píng)測(cè)指標(biāo)在不同評(píng)估維度上的評(píng)測(cè)結(jié)果與人類判斷的相關(guān)性,揭示評(píng)測(cè)指標(biāo)在捕捉不同生成任務(wù)上的微妙差異的能力,為評(píng)估方法本身的改進(jìn)提供指導(dǎo)。

          • 針對(duì)評(píng)測(cè)指標(biāo)公平性評(píng)估的元評(píng)測(cè):探究評(píng)測(cè)指標(biāo)和評(píng)測(cè)方法受到人類評(píng)測(cè)員專業(yè)背景、文化差異等因素的影響,以及數(shù)據(jù)稀缺性對(duì)基于模型的評(píng)測(cè)方法在低資源語言上表現(xiàn)更差的問題。

          • 針對(duì)評(píng)測(cè)指標(biāo)魯棒性評(píng)估的元評(píng)測(cè):通過基于擾動(dòng)的方法研究評(píng)測(cè)指標(biāo)的魯棒性,揭示其在面對(duì)數(shù)據(jù)噪聲、變化或?qū)剐詷颖緯r(shí)的穩(wěn)定性,提高評(píng)測(cè)方法的可靠性。

            參考鏈接:http://jcip.cipsc.org.cn/CN/Y2024/V38/I1/1


          瀏覽 123
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美一级操逼片 | 污网站在线免费看 | 福利精品一区二区三区四区 | 在线国产网站 | 在线观看色网 |