谷歌重磅:告別RAG,長上下文的大語言模型無需檢索增強(qiáng)
共 4738字,需瀏覽 10分鐘
·
2024-07-25 17:00
來源:夕小瑤科技說 機(jī)器學(xué)習(xí)算法與自然語言處理 本文約2600字,建議閱讀10分鐘 長上下文語言模型通過LOFT基準(zhǔn)測(cè)試,展現(xiàn)出無需檢索增強(qiáng)(RAG)的強(qiáng)大能力。
當(dāng)今人工智能領(lǐng)域正在經(jīng)歷一場(chǎng)靜默的革命。隨著大語言模型(LLM)的快速發(fā)展,它們不僅能夠處理更長的上下文,還展現(xiàn)出驚人的推理和檢索能力。
難道我們要告別基于LLM的檢索增強(qiáng)生成(RAG)了嗎?
結(jié)果還真是這樣,最近谷歌發(fā)布專門用于評(píng)估長上下文語言模型的LOFT測(cè)試基準(zhǔn),該測(cè)試基準(zhǔn)評(píng)估長上下文LLM在各種實(shí)際任務(wù)中的表現(xiàn),包括信息檢索、問答和數(shù)據(jù)庫查詢等。LOFT的測(cè)試結(jié)果顯示,一些最先進(jìn)的長上下文模型在某些任務(wù)上已經(jīng)達(dá)到了與專門訓(xùn)練系統(tǒng)相近的性能水平。
這意味著什么?它可能預(yù)示著AI應(yīng)用的一個(gè)新時(shí)代的到來。在不久的將來,我們或許只需要一個(gè)強(qiáng)大的語言模型,就能完成過去需要多個(gè)專門系統(tǒng)才能完成的復(fù)雜任務(wù)。不過,這項(xiàng)研究同樣指出大語言模型存在一些缺陷亟待解決。
論文標(biāo)題:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
AI界的新挑戰(zhàn)與機(jī)遇
近年來,大型語言模型(LLM)的快速發(fā)展為人工智能領(lǐng)域帶來了新的機(jī)遇和挑戰(zhàn)。這些模型展現(xiàn)出驚人的語言理解和生成能力,但如何充分利用它們處理長上下文信息的潛力成為了一個(gè)關(guān)鍵問題。
傳統(tǒng)上,復(fù)雜的AI任務(wù)需要多個(gè)專門系統(tǒng)協(xié)作完成。這類系統(tǒng)通常需要獨(dú)立的模塊來進(jìn)行信息檢索、問答和數(shù)據(jù)庫查詢等任務(wù)。下圖左側(cè)展示了傳統(tǒng)的任務(wù)處理方式,包含多個(gè)模態(tài)檢索工具和RAG過程。
相比之下,上圖右側(cè)展示長上下文語言模型(LCLM)的潛力。LCLM可以直接接收包含文本、圖像、音頻等多模態(tài)信息的整個(gè)語料庫作為輸入。通過"語料庫中的上下文"(CiC)提示方法,模型能夠在統(tǒng)一的框架內(nèi)執(zhí)行各種任務(wù),包括檢索、推理和答案生成。這種方法大大簡化了流程,并且避免了多個(gè)獨(dú)立系統(tǒng)可能帶來的錯(cuò)誤累積問題。
然而,評(píng)估這些模型的性能并不容易。現(xiàn)有的方法往往局限于特定任務(wù),難以全面測(cè)試長上下文模型的能力。為此,研究者提出了LOFT(Long-Context Frontiers)基準(zhǔn)測(cè)試。
LOFT包含6種任務(wù)類型,涵蓋35個(gè)數(shù)據(jù)集,橫跨文本、視覺和音頻多個(gè)模態(tài)。它能夠動(dòng)態(tài)調(diào)整上下文長度,從32k到1M個(gè)標(biāo)記,使研究者能系統(tǒng)地評(píng)估模型在不同長度上下文中的表現(xiàn)。
LOFT的出現(xiàn)為評(píng)估和理解長上下文模型提供了一個(gè)標(biāo)準(zhǔn)化平臺(tái),為探索這些模型的潛力和局限性提供了重要工具。
LOFT:一個(gè)全面的長上下文語言模型評(píng)估基準(zhǔn)
LOFT(Long-Context Frontiers)基準(zhǔn)測(cè)試的設(shè)計(jì)旨在全面評(píng)估長上下文語言模型的能力。LOFT包含六大類任務(wù),涵蓋35個(gè)數(shù)據(jù)集,橫跨文本、視覺和音頻多個(gè)模態(tài):
-
文本檢索:從大量文檔中找出相關(guān)內(nèi)容。 -
視覺檢索:根據(jù)文本描述找出相關(guān)圖像或視頻。 -
音頻檢索:匹配文本與相應(yīng)音頻。 -
檢索增強(qiáng)生成(RAG):基于檢索信息生成答案。 -
SQL類任務(wù):理解自然語言查詢并從數(shù)據(jù)庫中提取信息。 多示例上下文學(xué)習(xí):從大量示例中學(xué)習(xí)并完成任務(wù)。
LOFT的一個(gè)關(guān)鍵特性是其可擴(kuò)展性。它支持從32k到128k,再到1M個(gè)標(biāo)記的上下文長度,使研究者能夠系統(tǒng)地評(píng)估模型性能隨上下文長度增加的變化。
為了充分發(fā)揮長上下文模型的潛力,研究團(tuán)隊(duì)提出了"上下文中的語料庫"(Corpus-in-Context,CiC)提示方法。CiC提示包含四個(gè)主要部分:
-
指令:為模型提供任務(wù)特定的指導(dǎo)。 -
語料庫格式化:將整個(gè)語料庫直接放入上下文,每個(gè)候選項(xiàng)分配唯一ID。 -
少樣本示例:提供幾個(gè)帶有推理鏈的任務(wù)示例。 查詢格式化:按照示例格式呈現(xiàn)待評(píng)估的查詢。
這種方法允許模型直接在給定的大規(guī)模語料庫中進(jìn)行檢索和推理,簡化了任務(wù)流程,并充分利用了長上下文模型的能力。
通過這種設(shè)計(jì),LOFT不僅提供了一個(gè)標(biāo)準(zhǔn)化的評(píng)估平臺(tái),還為探索長上下文模型在實(shí)際應(yīng)用中的潛力和局限性提供了寶貴的工具。
實(shí)驗(yàn)結(jié)果:驚喜與挑戰(zhàn)并存
LOFT基準(zhǔn)測(cè)試的結(jié)果既展示了長上下文模型的潛力,又揭示了一些挑戰(zhàn)。研究團(tuán)隊(duì)評(píng)估了三個(gè)最先進(jìn)的長上下文模型:Google的Gemini 1.5 Pro、OpenAI的GPT-4o和Anthropic的Claude 3 Opus。這些模型在各種任務(wù)上的表現(xiàn)如下表所示:
文本檢索任務(wù)
在文本檢索任務(wù)中,Gemini 1.5 Pro的表現(xiàn)尤為出色。在128k上下文長度的測(cè)試中,Gemini 1.5 Pro在多個(gè)數(shù)據(jù)集上達(dá)到了與專門訓(xùn)練的檢索系統(tǒng)Gecko相當(dāng)?shù)男阅堋@?,在NQ數(shù)據(jù)集上,Gemini 1.5 Pro和Gecko都達(dá)到了0.99的Recall@1分?jǐn)?shù),而Gemini 1.5 Pro并沒有經(jīng)過專門的檢索訓(xùn)練。
然而,隨著上下文長度增加到1M標(biāo)記,模型性能出現(xiàn)了一定程度的下降。這表明在處理超長上下文時(shí),模型仍面臨著挑戰(zhàn)。
視覺和音頻檢索任務(wù)
在視覺檢索任務(wù)中,Gemini 1.5 Pro同樣表現(xiàn)出優(yōu)異的性能表現(xiàn)。其在多個(gè)數(shù)據(jù)集上超越了專門的視覺-文本檢索模型CLIP。例如,在OVEN數(shù)據(jù)集上,Gemini 1.5 Pro達(dá)到了0.93的分?jǐn)?shù),而CLIP只有0.79。
在音頻檢索任務(wù)上,Gemini 1.5 Pro在所有五種語言的FLEURS數(shù)據(jù)集上都達(dá)到了完美或接近完美的表現(xiàn),超過了專門的音頻檢索模型。
檢索增強(qiáng)生成(RAG)任務(wù)
在RAG任務(wù)中,長上下文模型展現(xiàn)出了強(qiáng)大的推理能力。在需要多跳推理的數(shù)據(jù)集(如HotpotQA和MusiQue)上,Gemini 1.5 Pro的表現(xiàn)超過了傳統(tǒng)的RAG pipeline。例如,在HotpotQA上,Gemini 1.5 Pro得分為0.75,而專業(yè)的RAG系統(tǒng)得分為0.70。
SQL類任務(wù)
然而,在SQL類任務(wù)中,長上下文模型的表現(xiàn)相對(duì)較弱。
在Spider和SparC數(shù)據(jù)集上,專門的SQL系統(tǒng)的性能顯著優(yōu)于長上下文模型。這表明在處理需要復(fù)雜結(jié)構(gòu)化推理的任務(wù)時(shí),這些模型還有很大的改進(jìn)空間。
提示策略的影響
研究還發(fā)現(xiàn),提示策略對(duì)模型性能有顯著影響。在文本檢索任務(wù)中,金標(biāo)準(zhǔn)文檔在語料庫中的位置會(huì)影響模型的性能。
將少樣本示例的金標(biāo)準(zhǔn)文檔放在語料庫末尾可以提高模型在該區(qū)域的注意力,從而提升整體性能。
多示例上下文學(xué)習(xí)
在多示例上下文學(xué)習(xí)任務(wù)中,長上下文模型展現(xiàn)出了良好的表現(xiàn)。在某些任務(wù)中(如LIB-dialog),模型的性能隨著示例數(shù)量的增加而穩(wěn)步提升。
然而,在一些推理密集型任務(wù)中(如BBH-tracking7),增加示例數(shù)量并未帶來顯著改善,這表明模型在復(fù)雜推理任務(wù)上仍有局限性。
總體而言,LOFT的實(shí)驗(yàn)結(jié)果既展示了長上下文模型的巨大潛力,特別是在檢索和多模態(tài)任務(wù)中,又揭示了它們?cè)谔幚沓L上下文和復(fù)雜結(jié)構(gòu)化推理任務(wù)時(shí)面臨的挑戰(zhàn)。
總結(jié)與展望
長上下文語言模型通過LOFT基準(zhǔn)測(cè)試,展現(xiàn)出無需檢索增強(qiáng)(RAG)的強(qiáng)大能力。這些模型在多項(xiàng)任務(wù)中表現(xiàn)卓越,特別是信息檢索,預(yù)示AI應(yīng)用可能告別RAG,迎來簡化統(tǒng)一的新時(shí)代。盡管在處理超長上下文和復(fù)雜推理時(shí)仍面臨挑戰(zhàn),但這一突破標(biāo)志著向更強(qiáng)大的長上下文模型邁進(jìn)了重要一步。
未來研究可能會(huì)聚焦于改進(jìn)超長上下文處理技術(shù)、增強(qiáng)結(jié)構(gòu)化推理能力、優(yōu)化提示策略,以及探索與專門系統(tǒng)的結(jié)合。LOFT為這些研究方向提供了重要的評(píng)估工具。隨著技術(shù)的不斷進(jìn)步,有望出現(xiàn)更加強(qiáng)大和靈活的AI系統(tǒng),為各個(gè)領(lǐng)域帶來革新性的變化。
關(guān)于我們
數(shù)據(jù)派THU作為數(shù)據(jù)科學(xué)類公眾號(hào),背靠清華大學(xué)大數(shù)據(jù)研究中心,分享前沿?cái)?shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)創(chuàng)新研究動(dòng)態(tài)、持續(xù)傳播數(shù)據(jù)科學(xué)知識(shí),努力建設(shè)數(shù)據(jù)人才聚集平臺(tái)、打造中國大數(shù)據(jù)最強(qiáng)集團(tuán)軍。
新浪微博:@數(shù)據(jù)派THU
微信視頻號(hào):數(shù)據(jù)派THU
今日頭條:數(shù)據(jù)派THU
