<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌重磅:告別RAG,長上下文的大語言模型無需檢索增強(qiáng)

          共 4738字,需瀏覽 10分鐘

           ·

          2024-07-25 17:00

             
          來源:夕小瑤科技說 機(jī)器學(xué)習(xí)算法與自然語言處理
          本文約2600字,建議閱讀10分鐘
          長上下文語言模型通過LOFT基準(zhǔn)測(cè)試,展現(xiàn)出無需檢索增強(qiáng)(RAG)的強(qiáng)大能力。

          當(dāng)今人工智能領(lǐng)域正在經(jīng)歷一場(chǎng)靜默的革命。隨著大語言模型(LLM)的快速發(fā)展,它們不僅能夠處理更長的上下文,還展現(xiàn)出驚人的推理和檢索能力。

          難道我們要告別基于LLM的檢索增強(qiáng)生成(RAG)了嗎?

          結(jié)果還真是這樣,最近谷歌發(fā)布專門用于評(píng)估長上下文語言模型的LOFT測(cè)試基準(zhǔn),該測(cè)試基準(zhǔn)評(píng)估長上下文LLM在各種實(shí)際任務(wù)中的表現(xiàn),包括信息檢索、問答和數(shù)據(jù)庫查詢等。LOFT的測(cè)試結(jié)果顯示,一些最先進(jìn)的長上下文模型在某些任務(wù)上已經(jīng)達(dá)到了與專門訓(xùn)練系統(tǒng)相近的性能水平。

          這意味著什么?它可能預(yù)示著AI應(yīng)用的一個(gè)新時(shí)代的到來。在不久的將來,我們或許只需要一個(gè)強(qiáng)大的語言模型,就能完成過去需要多個(gè)專門系統(tǒng)才能完成的復(fù)雜任務(wù)。不過,這項(xiàng)研究同樣指出大語言模型存在一些缺陷亟待解決。

          論文標(biāo)題:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

          論文鏈接:https://arxiv.org/pdf/2406.13121


          AI界的新挑戰(zhàn)與機(jī)遇

          近年來,大型語言模型(LLM)的快速發(fā)展為人工智能領(lǐng)域帶來了新的機(jī)遇和挑戰(zhàn)。這些模型展現(xiàn)出驚人的語言理解和生成能力,但如何充分利用它們處理長上下文信息的潛力成為了一個(gè)關(guān)鍵問題。

          傳統(tǒng)上,復(fù)雜的AI任務(wù)需要多個(gè)專門系統(tǒng)協(xié)作完成。這類系統(tǒng)通常需要獨(dú)立的模塊來進(jìn)行信息檢索、問答和數(shù)據(jù)庫查詢等任務(wù)。下圖左側(cè)展示了傳統(tǒng)的任務(wù)處理方式,包含多個(gè)模態(tài)檢索工具和RAG過程。




          相比之下,上圖右側(cè)展示長上下文語言模型(LCLM)的潛力。LCLM可以直接接收包含文本、圖像、音頻等多模態(tài)信息的整個(gè)語料庫作為輸入。通過"語料庫中的上下文"(CiC)提示方法,模型能夠在統(tǒng)一的框架內(nèi)執(zhí)行各種任務(wù),包括檢索、推理和答案生成。這種方法大大簡化了流程,并且避免了多個(gè)獨(dú)立系統(tǒng)可能帶來的錯(cuò)誤累積問題。

          然而,評(píng)估這些模型的性能并不容易。現(xiàn)有的方法往往局限于特定任務(wù),難以全面測(cè)試長上下文模型的能力。為此,研究者提出了LOFT(Long-Context Frontiers)基準(zhǔn)測(cè)試。

          LOFT包含6種任務(wù)類型,涵蓋35個(gè)數(shù)據(jù)集,橫跨文本、視覺和音頻多個(gè)模態(tài)。它能夠動(dòng)態(tài)調(diào)整上下文長度,從32k到1M個(gè)標(biāo)記,使研究者能系統(tǒng)地評(píng)估模型在不同長度上下文中的表現(xiàn)。


          LOFT的出現(xiàn)為評(píng)估和理解長上下文模型提供了一個(gè)標(biāo)準(zhǔn)化平臺(tái),為探索這些模型的潛力和局限性提供了重要工具。

          LOFT:一個(gè)全面的長上下文語言模型評(píng)估基準(zhǔn)

          LOFT(Long-Context Frontiers)基準(zhǔn)測(cè)試的設(shè)計(jì)旨在全面評(píng)估長上下文語言模型的能力。LOFT包含六大類任務(wù),涵蓋35個(gè)數(shù)據(jù)集,橫跨文本、視覺和音頻多個(gè)模態(tài):

          • 文本檢索:從大量文檔中找出相關(guān)內(nèi)容。
          • 視覺檢索:根據(jù)文本描述找出相關(guān)圖像或視頻。
          • 音頻檢索:匹配文本與相應(yīng)音頻。
          • 檢索增強(qiáng)生成(RAG):基于檢索信息生成答案。
          • SQL類任務(wù):理解自然語言查詢并從數(shù)據(jù)庫中提取信息。
          • 多示例上下文學(xué)習(xí):從大量示例中學(xué)習(xí)并完成任務(wù)。

          LOFT的一個(gè)關(guān)鍵特性是其可擴(kuò)展性。它支持從32k到128k,再到1M個(gè)標(biāo)記的上下文長度,使研究者能夠系統(tǒng)地評(píng)估模型性能隨上下文長度增加的變化。

          為了充分發(fā)揮長上下文模型的潛力,研究團(tuán)隊(duì)提出了"上下文中的語料庫"(Corpus-in-Context,CiC)提示方法。CiC提示包含四個(gè)主要部分:


          • 指令:為模型提供任務(wù)特定的指導(dǎo)。
          • 語料庫格式化:將整個(gè)語料庫直接放入上下文,每個(gè)候選項(xiàng)分配唯一ID。
          • 少樣本示例:提供幾個(gè)帶有推理鏈的任務(wù)示例。
          • 查詢格式化:按照示例格式呈現(xiàn)待評(píng)估的查詢。

          這種方法允許模型直接在給定的大規(guī)模語料庫中進(jìn)行檢索和推理,簡化了任務(wù)流程,并充分利用了長上下文模型的能力。

          通過這種設(shè)計(jì),LOFT不僅提供了一個(gè)標(biāo)準(zhǔn)化的評(píng)估平臺(tái),還為探索長上下文模型在實(shí)際應(yīng)用中的潛力和局限性提供了寶貴的工具。

          實(shí)驗(yàn)結(jié)果:驚喜與挑戰(zhàn)并存

          LOFT基準(zhǔn)測(cè)試的結(jié)果既展示了長上下文模型的潛力,又揭示了一些挑戰(zhàn)。研究團(tuán)隊(duì)評(píng)估了三個(gè)最先進(jìn)的長上下文模型:Google的Gemini 1.5 Pro、OpenAI的GPT-4o和Anthropic的Claude 3 Opus。這些模型在各種任務(wù)上的表現(xiàn)如下表所示:


          文本檢索任務(wù)

          在文本檢索任務(wù)中,Gemini 1.5 Pro的表現(xiàn)尤為出色。在128k上下文長度的測(cè)試中,Gemini 1.5 Pro在多個(gè)數(shù)據(jù)集上達(dá)到了與專門訓(xùn)練的檢索系統(tǒng)Gecko相當(dāng)?shù)男阅堋@?,在NQ數(shù)據(jù)集上,Gemini 1.5 Pro和Gecko都達(dá)到了0.99的Recall@1分?jǐn)?shù),而Gemini 1.5 Pro并沒有經(jīng)過專門的檢索訓(xùn)練。

          然而,隨著上下文長度增加到1M標(biāo)記,模型性能出現(xiàn)了一定程度的下降。這表明在處理超長上下文時(shí),模型仍面臨著挑戰(zhàn)。

          視覺和音頻檢索任務(wù)

          在視覺檢索任務(wù)中,Gemini 1.5 Pro同樣表現(xiàn)出優(yōu)異的性能表現(xiàn)。其在多個(gè)數(shù)據(jù)集上超越了專門的視覺-文本檢索模型CLIP。例如,在OVEN數(shù)據(jù)集上,Gemini 1.5 Pro達(dá)到了0.93的分?jǐn)?shù),而CLIP只有0.79。

          在音頻檢索任務(wù)上,Gemini 1.5 Pro在所有五種語言的FLEURS數(shù)據(jù)集上都達(dá)到了完美或接近完美的表現(xiàn),超過了專門的音頻檢索模型。

          檢索增強(qiáng)生成(RAG)任務(wù)

          在RAG任務(wù)中,長上下文模型展現(xiàn)出了強(qiáng)大的推理能力。在需要多跳推理的數(shù)據(jù)集(如HotpotQA和MusiQue)上,Gemini 1.5 Pro的表現(xiàn)超過了傳統(tǒng)的RAG pipeline。例如,在HotpotQA上,Gemini 1.5 Pro得分為0.75,而專業(yè)的RAG系統(tǒng)得分為0.70。

          SQL類任務(wù)

          然而,在SQL類任務(wù)中,長上下文模型的表現(xiàn)相對(duì)較弱。

          在Spider和SparC數(shù)據(jù)集上,專門的SQL系統(tǒng)的性能顯著優(yōu)于長上下文模型。這表明在處理需要復(fù)雜結(jié)構(gòu)化推理的任務(wù)時(shí),這些模型還有很大的改進(jìn)空間。

          提示策略的影響

          研究還發(fā)現(xiàn),提示策略對(duì)模型性能有顯著影響。在文本檢索任務(wù)中,金標(biāo)準(zhǔn)文檔在語料庫中的位置會(huì)影響模型的性能。


          將少樣本示例的金標(biāo)準(zhǔn)文檔放在語料庫末尾可以提高模型在該區(qū)域的注意力,從而提升整體性能。

          多示例上下文學(xué)習(xí)

          在多示例上下文學(xué)習(xí)任務(wù)中,長上下文模型展現(xiàn)出了良好的表現(xiàn)。在某些任務(wù)中(如LIB-dialog),模型的性能隨著示例數(shù)量的增加而穩(wěn)步提升。


          然而,在一些推理密集型任務(wù)中(如BBH-tracking7),增加示例數(shù)量并未帶來顯著改善,這表明模型在復(fù)雜推理任務(wù)上仍有局限性。

          總體而言,LOFT的實(shí)驗(yàn)結(jié)果既展示了長上下文模型的巨大潛力,特別是在檢索和多模態(tài)任務(wù)中,又揭示了它們?cè)谔幚沓L上下文和復(fù)雜結(jié)構(gòu)化推理任務(wù)時(shí)面臨的挑戰(zhàn)。

          總結(jié)與展望

          長上下文語言模型通過LOFT基準(zhǔn)測(cè)試,展現(xiàn)出無需檢索增強(qiáng)(RAG)的強(qiáng)大能力。這些模型在多項(xiàng)任務(wù)中表現(xiàn)卓越,特別是信息檢索,預(yù)示AI應(yīng)用可能告別RAG,迎來簡化統(tǒng)一的新時(shí)代。盡管在處理超長上下文和復(fù)雜推理時(shí)仍面臨挑戰(zhàn),但這一突破標(biāo)志著向更強(qiáng)大的長上下文模型邁進(jìn)了重要一步。

          未來研究可能會(huì)聚焦于改進(jìn)超長上下文處理技術(shù)、增強(qiáng)結(jié)構(gòu)化推理能力、優(yōu)化提示策略,以及探索與專門系統(tǒng)的結(jié)合。LOFT為這些研究方向提供了重要的評(píng)估工具。隨著技術(shù)的不斷進(jìn)步,有望出現(xiàn)更加強(qiáng)大和靈活的AI系統(tǒng),為各個(gè)領(lǐng)域帶來革新性的變化。

          編輯:黃繼彥



          關(guān)于我們

          數(shù)據(jù)派THU作為數(shù)據(jù)科學(xué)類公眾號(hào),背靠清華大學(xué)大數(shù)據(jù)研究中心,分享前沿?cái)?shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)創(chuàng)新研究動(dòng)態(tài)、持續(xù)傳播數(shù)據(jù)科學(xué)知識(shí),努力建設(shè)數(shù)據(jù)人才聚集平臺(tái)、打造中國大數(shù)據(jù)最強(qiáng)集團(tuán)軍。



          新浪微博:@數(shù)據(jù)派THU

          微信視頻號(hào):數(shù)據(jù)派THU

          今日頭條:數(shù)據(jù)派THU

          瀏覽 110
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91在线无码精品在线看 | 欧美日高清视频免费在线播放 | 黄色一级片一级片 | 五月天色度导航 | 黄色一级视频免费观看 |