來源：夕小瑤科技說 機(jī)器學(xué)習(xí)算法與自然語言處理
      
     
    
   
   
    
     
      
       
        
         本文約2600字，建議閱讀10分鐘
        
        
         長上下文語言模型通過LOFT基準(zhǔn)測(cè)試，展現(xiàn)出無需檢索增強(qiáng)（RAG）的強(qiáng)大能力。

當(dāng)今人工智能領(lǐng)域正在經(jīng)歷一場(chǎng)靜默的革命。隨著大語言模型(LLM)的快速發(fā)展，它們不僅能夠處理更長的上下文，還展現(xiàn)出驚人的推理和檢索能力。

難道我們要告別基于LLM的檢索增強(qiáng)生成(RAG)了嗎？

結(jié)果還真是這樣，最近谷歌發(fā)布專門用于評(píng)估長上下文語言模型的LOFT測(cè)試基準(zhǔn)，該測(cè)試基準(zhǔn)評(píng)估長上下文LLM在各種實(shí)際任務(wù)中的表現(xiàn)，包括信息檢索、問答和數(shù)據(jù)庫查詢等。LOFT的測(cè)試結(jié)果顯示，一些最先進(jìn)的長上下文模型在某些任務(wù)上已經(jīng)達(dá)到了與專門訓(xùn)練系統(tǒng)相近的性能水平。

這意味著什么？它可能預(yù)示著AI應(yīng)用的一個(gè)新時(shí)代的到來。在不久的將來，我們或許只需要一個(gè)強(qiáng)大的語言模型，就能完成過去需要多個(gè)專門系統(tǒng)才能完成的復(fù)雜任務(wù)。不過，這項(xiàng)研究同樣指出大語言模型存在一些缺陷亟待解決。

論文標(biāo)題：Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

論文鏈接：https://arxiv.org/pdf/2406.13121

AI界的新挑戰(zhàn)與機(jī)遇

近年來，大型語言模型(LLM)的快速發(fā)展為人工智能領(lǐng)域帶來了新的機(jī)遇和挑戰(zhàn)。這些模型展現(xiàn)出驚人的語言理解和生成能力，但如何充分利用它們處理長上下文信息的潛力成為了一個(gè)關(guān)鍵問題。

傳統(tǒng)上，復(fù)雜的AI任務(wù)需要多個(gè)專門系統(tǒng)協(xié)作完成。這類系統(tǒng)通常需要獨(dú)立的模塊來進(jìn)行信息檢索、問答和數(shù)據(jù)庫查詢等任務(wù)。下圖左側(cè)展示了傳統(tǒng)的任務(wù)處理方式，包含多個(gè)模態(tài)檢索工具和RAG過程。

相比之下，上圖右側(cè)展示長上下文語言模型（LCLM）的潛力。LCLM可以直接接收包含文本、圖像、音頻等多模態(tài)信息的整個(gè)語料庫作為輸入。通過"語料庫中的上下文"（CiC）提示方法，模型能夠在統(tǒng)一的框架內(nèi)執(zhí)行各種任務(wù)，包括檢索、推理和答案生成。這種方法大大簡化了流程，并且避免了多個(gè)獨(dú)立系統(tǒng)可能帶來的錯(cuò)誤累積問題。

然而，評(píng)估這些模型的性能并不容易。現(xiàn)有的方法往往局限于特定任務(wù)，難以全面測(cè)試長上下文模型的能力。為此，研究者提出了LOFT（Long-Context Frontiers）基準(zhǔn)測(cè)試。

LOFT包含6種任務(wù)類型，涵蓋35個(gè)數(shù)據(jù)集，橫跨文本、視覺和音頻多個(gè)模態(tài)。它能夠動(dòng)態(tài)調(diào)整上下文長度，從32k到1M個(gè)標(biāo)記，使研究者能系統(tǒng)地評(píng)估模型在不同長度上下文中的表現(xiàn)。

LOFT的出現(xiàn)為評(píng)估和理解長上下文模型提供了一個(gè)標(biāo)準(zhǔn)化平臺(tái)，為探索這些模型的潛力和局限性提供了重要工具。

LOFT：一個(gè)全面的長上下文語言模型評(píng)估基準(zhǔn)

LOFT（Long-Context Frontiers）基準(zhǔn)測(cè)試的設(shè)計(jì)旨在全面評(píng)估長上下文語言模型的能力。LOFT包含六大類任務(wù)，涵蓋35個(gè)數(shù)據(jù)集，橫跨文本、視覺和音頻多個(gè)模態(tài)：

文本檢索：從大量文檔中找出相關(guān)內(nèi)容。
視覺檢索：根據(jù)文本描述找出相關(guān)圖像或視頻。
音頻檢索：匹配文本與相應(yīng)音頻。
檢索增強(qiáng)生成（RAG）：基于檢索信息生成答案。
SQL類任務(wù)：理解自然語言查詢并從數(shù)據(jù)庫中提取信息。
多示例上下文學(xué)習(xí)：從大量示例中學(xué)習(xí)并完成任務(wù)。

LOFT的一個(gè)關(guān)鍵特性是其可擴(kuò)展性。它支持從32k到128k，再到1M個(gè)標(biāo)記的上下文長度，使研究者能夠系統(tǒng)地評(píng)估模型性能隨上下文長度增加的變化。

為了充分發(fā)揮長上下文模型的潛力，研究團(tuán)隊(duì)提出了"上下文中的語料庫"（Corpus-in-Context，CiC）提示方法。CiC提示包含四個(gè)主要部分：

指令：為模型提供任務(wù)特定的指導(dǎo)。
語料庫格式化：將整個(gè)語料庫直接放入上下文，每個(gè)候選項(xiàng)分配唯一ID。
少樣本示例：提供幾個(gè)帶有推理鏈的任務(wù)示例。
查詢格式化：按照示例格式呈現(xiàn)待評(píng)估的查詢。

這種方法允許模型直接在給定的大規(guī)模語料庫中進(jìn)行檢索和推理，簡化了任務(wù)流程，并充分利用了長上下文模型的能力。

通過這種設(shè)計(jì)，LOFT不僅提供了一個(gè)標(biāo)準(zhǔn)化的評(píng)估平臺(tái)，還為探索長上下文模型在實(shí)際應(yīng)用中的潛力和局限性提供了寶貴的工具。

實(shí)驗(yàn)結(jié)果：驚喜與挑戰(zhàn)并存

LOFT基準(zhǔn)測(cè)試的結(jié)果既展示了長上下文模型的潛力，又揭示了一些挑戰(zhàn)。研究團(tuán)隊(duì)評(píng)估了三個(gè)最先進(jìn)的長上下文模型：Google的Gemini 1.5 Pro、OpenAI的GPT-4o和Anthropic的Claude 3 Opus。這些模型在各種任務(wù)上的表現(xiàn)如下表所示：

文本檢索任務(wù)

在文本檢索任務(wù)中，Gemini 1.5 Pro的表現(xiàn)尤為出色。在128k上下文長度的測(cè)試中，Gemini 1.5 Pro在多個(gè)數(shù)據(jù)集上達(dá)到了與專門訓(xùn)練的檢索系統(tǒng)Gecko相當(dāng)?shù)男阅堋＠?，在NQ數(shù)據(jù)集上，Gemini 1.5 Pro和Gecko都達(dá)到了0.99的Recall@1分?jǐn)?shù)，而Gemini 1.5 Pro并沒有經(jīng)過專門的檢索訓(xùn)練。

然而，隨著上下文長度增加到1M標(biāo)記，模型性能出現(xiàn)了一定程度的下降。這表明在處理超長上下文時(shí)，模型仍面臨著挑戰(zhàn)。

視覺和音頻檢索任務(wù)

在視覺檢索任務(wù)中，Gemini 1.5 Pro同樣表現(xiàn)出優(yōu)異的性能表現(xiàn)。其在多個(gè)數(shù)據(jù)集上超越了專門的視覺-文本檢索模型CLIP。例如，在OVEN數(shù)據(jù)集上，Gemini 1.5 Pro達(dá)到了0.93的分?jǐn)?shù)，而CLIP只有0.79。

在音頻檢索任務(wù)上，Gemini 1.5 Pro在所有五種語言的FLEURS數(shù)據(jù)集上都達(dá)到了完美或接近完美的表現(xiàn)，超過了專門的音頻檢索模型。

檢索增強(qiáng)生成（RAG）任務(wù)

在RAG任務(wù)中，長上下文模型展現(xiàn)出了強(qiáng)大的推理能力。在需要多跳推理的數(shù)據(jù)集（如HotpotQA和MusiQue）上，Gemini 1.5 Pro的表現(xiàn)超過了傳統(tǒng)的RAG pipeline。例如，在HotpotQA上，Gemini 1.5 Pro得分為0.75，而專業(yè)的RAG系統(tǒng)得分為0.70。

SQL類任務(wù)

然而，在SQL類任務(wù)中，長上下文模型的表現(xiàn)相對(duì)較弱。

在Spider和SparC數(shù)據(jù)集上，專門的SQL系統(tǒng)的性能顯著優(yōu)于長上下文模型。這表明在處理需要復(fù)雜結(jié)構(gòu)化推理的任務(wù)時(shí)，這些模型還有很大的改進(jìn)空間。

提示策略的影響

研究還發(fā)現(xiàn)，提示策略對(duì)模型性能有顯著影響。在文本檢索任務(wù)中，金標(biāo)準(zhǔn)文檔在語料庫中的位置會(huì)影響模型的性能。

將少樣本示例的金標(biāo)準(zhǔn)文檔放在語料庫末尾可以提高模型在該區(qū)域的注意力，從而提升整體性能。

多示例上下文學(xué)習(xí)

在多示例上下文學(xué)習(xí)任務(wù)中，長上下文模型展現(xiàn)出了良好的表現(xiàn)。在某些任務(wù)中（如LIB-dialog），模型的性能隨著示例數(shù)量的增加而穩(wěn)步提升。

然而，在一些推理密集型任務(wù)中（如BBH-tracking7），增加示例數(shù)量并未帶來顯著改善，這表明模型在復(fù)雜推理任務(wù)上仍有局限性。

總體而言，LOFT的實(shí)驗(yàn)結(jié)果既展示了長上下文模型的巨大潛力，特別是在檢索和多模態(tài)任務(wù)中，又揭示了它們?cè)谔幚沓L上下文和復(fù)雜結(jié)構(gòu)化推理任務(wù)時(shí)面臨的挑戰(zhàn)。

總結(jié)與展望

長上下文語言模型通過LOFT基準(zhǔn)測(cè)試，展現(xiàn)出無需檢索增強(qiáng)（RAG）的強(qiáng)大能力。這些模型在多項(xiàng)任務(wù)中表現(xiàn)卓越，特別是信息檢索，預(yù)示AI應(yīng)用可能告別RAG，迎來簡化統(tǒng)一的新時(shí)代。盡管在處理超長上下文和復(fù)雜推理時(shí)仍面臨挑戰(zhàn)，但這一突破標(biāo)志著向更強(qiáng)大的長上下文模型邁進(jìn)了重要一步。

未來研究可能會(huì)聚焦于改進(jìn)超長上下文處理技術(shù)、增強(qiáng)結(jié)構(gòu)化推理能力、優(yōu)化提示策略，以及探索與專門系統(tǒng)的結(jié)合。LOFT為這些研究方向提供了重要的評(píng)估工具。隨著技術(shù)的不斷進(jìn)步，有望出現(xiàn)更加強(qiáng)大和靈活的AI系統(tǒng)，為各個(gè)領(lǐng)域帶來革新性的變化。

編輯：黃繼彥

關(guān)于我們

數(shù)據(jù)派THU作為數(shù)據(jù)科學(xué)類公眾號(hào)，背靠清華大學(xué)大數(shù)據(jù)研究中心，分享前沿?cái)?shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)創(chuàng)新研究動(dòng)態(tài)、持續(xù)傳播數(shù)據(jù)科學(xué)知識(shí)，努力建設(shè)數(shù)據(jù)人才聚集平臺(tái)、打造中國大數(shù)據(jù)最強(qiáng)集團(tuán)軍。

新浪微博：@數(shù)據(jù)派THU

微信視頻號(hào)：數(shù)據(jù)派THU

今日頭條：數(shù)據(jù)派THU

谷歌重磅：告別RAG，長上下文的大語言模型無需檢索增強(qiáng)