<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          語義熵識(shí)破LLM幻覺!牛津大學(xué)新研究登Nature

          共 3537字,需瀏覽 8分鐘

           ·

          2024-07-10 13:14



            新智元報(bào)道  

          編輯:alan
          【新智元導(dǎo)讀】近日,來自牛津大學(xué)的研究人員推出了利用語義熵來檢測(cè)LLM幻覺的新方法。作為克服混淆的策略,語義熵建立在不確定性估計(jì)的概率工具之上,可以直接應(yīng)用于基礎(chǔ)模型,無需對(duì)架構(gòu)進(jìn)行任何修改。

          時(shí)至今日,大語言模型胡編亂造的情況仍屢見不鮮。

          不知大家面對(duì)LLM的一本正經(jīng)胡說八道,是輕皺眉頭,還是一笑而過?

          俗話說,大風(fēng)起兮云飛揚(yáng),安得猛士兮走四方。LLM幻覺任何時(shí)候都要除掉,不除不行。

          試想,當(dāng)你搜索一個(gè)簡(jiǎn)單語法時(shí),網(wǎng)頁上排名前幾的都是由大模型生成的錯(cuò)誤答案,測(cè)過之后才發(fā)覺浪費(fèi)了生命。

          如果LLM涉及了醫(yī)學(xué)、法律等專業(yè)領(lǐng)域,幻覺將造成嚴(yán)重的后果,所以相關(guān)的研究也從未停止。

          近日,來自牛津大學(xué)的研究人員在Nature上發(fā)表了利用語義熵來檢測(cè)LLM幻覺的新方法。

          論文地址:https://www.nature.com/articles/s41586-024-07421-0

          牛津大學(xué)計(jì)算機(jī)科學(xué)家Sebastian Farquhar等人,通過設(shè)計(jì)基于LLM確定的語義熵(相似性),來度量大模型答案中語義層面的不確定性。

          做法是讓第一個(gè)LLM針對(duì)同一問題多次產(chǎn)生答案,并由第二個(gè)LLM(裁判)來分析這些答案的語義相似性。

          同時(shí),為了驗(yàn)證以上判斷的準(zhǔn)確性,再啟用第三個(gè)LLM,同時(shí)接收人類的答案和第二個(gè)LLM的評(píng)判結(jié)果進(jìn)行比較,做到了無監(jiān)督,但有理有據(jù)。

          整個(gè)過程簡(jiǎn)單來說就是:如果我想檢查你是否在胡編亂造,我就會(huì)反復(fù)問你同一個(gè)問題。如果你每次給出的答案都不一樣......那就不對(duì)勁了。

          實(shí)驗(yàn)結(jié)果表明,本文采用的語義熵方案優(yōu)于所有基線方法:

          在Nature的一篇評(píng)論文章中,皇家墨爾本理工大學(xué)計(jì)算機(jī)技術(shù)學(xué)院院長(zhǎng)Karin Verspoor教授表示,這是一種「Fighting fire with fire」的方法:

          「結(jié)果表明,與這些簇相關(guān)的不確定性(語義熵)比標(biāo)準(zhǔn)的基于單詞的熵更能有效地估計(jì)第一個(gè)LLM的不確定性。這意味著即使第二個(gè)LLM的語義等價(jià)計(jì)算并不完美,但它仍然有幫助?!?/span>

          不過Karin Verspoor也指出,用一個(gè)LLM來評(píng)估一種基于LLM的方法似乎是在循環(huán)論證,而且可能有偏差。

          「但另一方面,我們確實(shí)能從中受到很多啟發(fā),這將有助于其他相關(guān)問題的研究,包括學(xué)術(shù)誠信和抄襲,使用LLM創(chuàng)建誤導(dǎo)或捏造的內(nèi)容」。

          Fighting fire with fire

          LLM的幻覺通常被定義為生成「無意義或不忠實(shí)于所提供的源內(nèi)容的內(nèi)容」,本文關(guān)注幻覺的一個(gè)子集——「虛構(gòu)」,即答案對(duì)不相關(guān)的內(nèi)容很敏感(比如隨機(jī)種子)。

          檢測(cè)虛構(gòu)可以讓基于LLM構(gòu)建的系統(tǒng),避免回答可能導(dǎo)致虛構(gòu)的問題,讓用戶意識(shí)到問題答案的不可靠性,或者通過更有根據(jù)的搜索,來補(bǔ)充或恢復(fù)LLM給出的回答。

          語義熵和混淆檢測(cè)

          為了檢測(cè)虛構(gòu),研究人員使用概率工具,來定義并測(cè)量LLM所產(chǎn)生內(nèi)容的語義熵——根據(jù)句子含義計(jì)算的熵。

          因?yàn)閷?duì)于語言來說,盡管表達(dá)方式不同(語法或詞匯上不同),但答案可能意味著相同的事情(語義上等效)。

          而語義熵傾向于估計(jì)自由形式答案的含義分布,而不是單詞或單詞片段的分布,符合實(shí)際情況,同時(shí)也可以看作是隨機(jī)種子變異的一種語義一致性檢查。

          如下圖所示,一般的不確定性衡量方法會(huì)將「巴黎」、「這是巴黎」和「法國(guó)首都巴黎」視為不同的回答,這并不適合語言任務(wù)。

          而本文的方法可以讓答案在計(jì)算熵之前根據(jù)含義進(jìn)行聚類。

          另外,語義熵還可以檢測(cè)較長(zhǎng)段落中的混淆。如下圖所示,將生成的長(zhǎng)答案分解為事實(shí)陳述。

          對(duì)于每個(gè)事實(shí)陳述,LLM會(huì)生成對(duì)應(yīng)的問題。然后另一個(gè)LLM對(duì)這些問題給出M個(gè)可能的答案。

          最后,計(jì)算每個(gè)特定問題答案的語義熵(包括原始事實(shí)),與該事實(shí)相關(guān)的問題的平均語義熵較高表明為虛構(gòu)。

          直觀上,本文方法的工作原理是對(duì)每個(gè)問題的幾個(gè)可能答案進(jìn)行采樣,并通過算法將它們聚類為具有相似含義的答案,然后根據(jù)同一聚類(簇)中的答案是否雙向相互關(guān)聯(lián)來確定答案。

          ——如果句子A的含義包含句子B(或者相反),那么我們認(rèn)為它們位于同一語義簇中。

          研究人員使用通用LLM和專門開發(fā)的自然語言推理 (NLI) 工具來測(cè)量語義關(guān)聯(lián)性 。

          實(shí)驗(yàn)評(píng)估

          語義熵可以檢測(cè)跨一系列語言模型和領(lǐng)域的自由格式文本生成中的混淆,而無需先前的領(lǐng)域知識(shí)。

          本文的實(shí)驗(yàn)評(píng)估涵蓋了問答知識(shí)(TriviaQA)、常識(shí)(SQuAD 1.1 )、生命科學(xué)(BioASQ)和開放知識(shí)域自然問題 (NQ-Open)。

          還包括檢測(cè)數(shù)學(xué)文字問題 (SVAMP) 和傳記生成數(shù)據(jù)集 (FactualBio)中的混淆。

          TriviaQA、SQuAD、BioASQ、NQ-Open和SVAMP均在上下文無關(guān)的情況下進(jìn)行評(píng)估,句子長(zhǎng)度96±70個(gè)字符,模型使用LLaMA 2 Chat(7B、13B和70B)、Falcon Instruct(7B和40B)以及Mistral Instruct(7B)。

          實(shí)驗(yàn)采用嵌入回歸方法作為強(qiáng)監(jiān)督基線。

          評(píng)估指標(biāo)

          首先,對(duì)于給定答案不正確的二元事件,使用AUROC來同時(shí)捕獲精確度和召回率,范圍從0到1,其中1代表完美的分類器,0.5代表無信息的分類器。

          第二個(gè)衡量標(biāo)準(zhǔn)是拒絕精度曲線下的面積 (AURAC),AURAC表示如果使用語義熵來過濾掉導(dǎo)致最高熵的問題,用戶將體驗(yàn)到的準(zhǔn)確性改進(jìn)。

          上圖結(jié)果是五個(gè)數(shù)據(jù)集的平均值,表明語義熵及其離散近似都優(yōu)于句子長(zhǎng)度生成的最佳基線。

          其中AUROC衡量方法預(yù)測(cè)LLM錯(cuò)誤的程度(與虛構(gòu)相關(guān)),而AURAC衡量拒絕回答被認(rèn)為可能導(dǎo)致混淆的問題,所帶來的系統(tǒng)性能改進(jìn)。

          對(duì)實(shí)驗(yàn)中的30種任務(wù)和模型組合進(jìn)行平均,語義熵達(dá)到了0.790的最佳AUROC值,而樸素熵為0.691、P(True) 為0.698、嵌入回歸基線 為0.687。

          在我們不同模型系列(LLaMA、Falcon和Mistral)和尺度(從7B到70B參數(shù))中,語義熵具有穩(wěn)定的性能(AUROC在0.78到0.81之間)。

          上表給出了TriviaQA、SQuAD和BioASQ在LLaMA 2 Chat 70B上測(cè)試的問題和答案示例。

          我們可以從中發(fā)現(xiàn)語義熵如何檢測(cè)含義不變但形式變化的情況(表的第一行),

          當(dāng)形式和含義一起變化時(shí)(第二行),熵和樸素熵都正確預(yù)測(cè)了虛構(gòu)的存在;

          當(dāng)形式和含義在幾個(gè)重新采樣的代中都保持不變時(shí),熵和樸素熵都正確預(yù)測(cè)了虛構(gòu)的不存在(第三行)。

          而最后一行的示例顯示了上下文和判斷在聚類中的重要性,以及根據(jù)固定參考答案進(jìn)行評(píng)估的缺點(diǎn)。

          上圖展示了語義熵的離散變體有效地檢測(cè)了FactualBio數(shù)據(jù)集上的虛構(gòu)。

          離散語義熵的AUROC和AURAC高于簡(jiǎn)單的自檢基線(僅詢問LLM事實(shí)是否可能為真)或P(True) 的變體,具有更好的拒絕準(zhǔn)確性性能。

          結(jié)論

          語義熵在檢測(cè)錯(cuò)誤方面的成功表明:LLM更擅長(zhǎng)「知道他們不知道什么」,——他們只是不知道他們知道他們不知道什么(狗頭)。

          語義熵作為克服混淆的策略建立在不確定性估計(jì)的概率工具的基礎(chǔ)上。它可以直接應(yīng)用于任何LLM或類似的基礎(chǔ)模型,無需對(duì)架構(gòu)進(jìn)行任何修改。即使當(dāng)模型的預(yù)測(cè)概率不可訪問時(shí),語義不確定性的離散變體也可以應(yīng)用。

          參考資料:
          https://www.science.org/content/article/is-your-ai-hallucinating-new-approach-can-tell-when-chatbots-make-things-up

          瀏覽 679
          3點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          3點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美后门菊门交3p视频在线观看 | 五月开心网 | 国产999久久久 | 最新中文字幕在线免费观看 | 久久中文字幕7区 |