本文約3000字,建議閱讀5分鐘
我們深入綜述、總結(jié)并分類了現(xiàn)有文獻(xiàn)中應(yīng)用于基礎(chǔ)語言模型的持續(xù)學(xué)習(xí)方法,如預(yù)訓(xùn)練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。

近年來,基礎(chǔ)語言模型(LMs)在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)領(lǐng)域取得了顯著成就。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型不同,基礎(chǔ)語言模型通過在大量無監(jiān)督數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,獲得了豐富的常識知識,并且具有強(qiáng)大的遷移學(xué)習(xí)能力。然而,由于災(zāi)難性遺忘,基礎(chǔ)語言模型仍然無法模擬人類的持續(xù)學(xué)習(xí)能力。因此,各種基于持續(xù)學(xué)習(xí)(CL)的方法被開發(fā)出來,以改進(jìn)語言模型,使其能夠在適應(yīng)新任務(wù)的同時(shí)不遺忘以前的知識。然而,現(xiàn)有方法的系統(tǒng)分類和性能比較仍然缺乏,這正是本綜述旨在填補(bǔ)的空白。我們深入綜述、總結(jié)并分類了現(xiàn)有文獻(xiàn)中應(yīng)用于基礎(chǔ)語言模型的持續(xù)學(xué)習(xí)方法,如預(yù)訓(xùn)練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續(xù)學(xué)習(xí)和在線持續(xù)學(xué)習(xí),其中包括傳統(tǒng)方法、基于參數(shù)高效的方法、基于提示調(diào)優(yōu)的方法和持續(xù)預(yù)訓(xùn)練方法。離線持續(xù)學(xué)習(xí)包括領(lǐng)域增量學(xué)習(xí)、任務(wù)增量學(xué)習(xí)和類別增量學(xué)習(xí),而在線持續(xù)學(xué)習(xí)則細(xì)分為硬任務(wù)邊界和模糊任務(wù)邊界設(shè)置。此外,我們概述了持續(xù)學(xué)習(xí)研究中使用的典型數(shù)據(jù)集和指標(biāo),并詳細(xì)分析了基于語言模型的持續(xù)學(xué)習(xí)所面臨的挑戰(zhàn)和未來工作。
近年來,基礎(chǔ)語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計(jì)算機(jī)視覺(CV)[188]領(lǐng)域設(shè)立了新的基準(zhǔn)?;A(chǔ)語言模型主要包括三大類:預(yù)訓(xùn)練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務(wù),通過利用掩碼語言建模等任務(wù)進(jìn)行預(yù)訓(xùn)練,對于理解和生成語言至關(guān)重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴(kuò)大模型架構(gòu)和訓(xùn)練數(shù)據(jù)的規(guī)模,擴(kuò)展了PLMs的能力,從而增強(qiáng)了它們在更廣泛任務(wù)中的普適性和適應(yīng)性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態(tài),使視覺和文本信息之間能夠進(jìn)行復(fù)雜交互。這些模型的基本范式是通過在廣泛的、通常是無標(biāo)簽的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練來捕獲豐富的語義信息,然后針對具體任務(wù)或領(lǐng)域進(jìn)行微調(diào)。這種方法不僅提升了各類應(yīng)用的性能,還顯著增強(qiáng)了模型的靈活性和任務(wù)適應(yīng)性。
然而,這些基礎(chǔ)模型在具有一系列任務(wù)的動(dòng)態(tài)環(huán)境中往往表現(xiàn)出局限性,主要原因是訓(xùn)練完成后參數(shù)固定。這些模型通常缺乏在不進(jìn)行重新訓(xùn)練的情況下整合新數(shù)據(jù)或概念的能力。一個(gè)重要挑戰(zhàn)是“災(zāi)難性遺忘”[92],即模型在學(xué)習(xí)新信息時(shí)會(huì)喪失先前獲得的知識。這與人類的持續(xù)學(xué)習(xí)過程形成鮮明對比,人類學(xué)習(xí)過程本質(zhì)上是連續(xù)且適應(yīng)性的。盡管多任務(wù)學(xué)習(xí)(MTL)和遷移學(xué)習(xí)(TL)在某些應(yīng)用中取得了成功,但它們在現(xiàn)實(shí)場景中有其局限性。MTL需要在開始時(shí)就提供所有任務(wù)及其數(shù)據(jù),這在推出新服務(wù)時(shí)構(gòu)成挑戰(zhàn),因?yàn)槟P捅仨氈匦掠?xùn)練所有數(shù)據(jù)。此外,TL通常只涉及兩個(gè)任務(wù),即源任務(wù)和目標(biāo)任務(wù),這對于擁有多個(gè)目標(biāo)任務(wù)的現(xiàn)實(shí)在線平臺(tái)來說是不切實(shí)際的。為了解決這些挑戰(zhàn),模型需要處理和學(xué)習(xí)不斷擴(kuò)展和多樣化的數(shù)據(jù)集。這需要允許模型在適應(yīng)新語言現(xiàn)象和趨勢的同時(shí),不影響對歷史數(shù)據(jù)的準(zhǔn)確性和敏感性的機(jī)制。
因此,持續(xù)學(xué)習(xí)(CL)[175, 186],也被稱為終身學(xué)習(xí)[145]或增量學(xué)習(xí)[230],是人工智能中的一個(gè)關(guān)鍵領(lǐng)域,旨在開發(fā)能夠持續(xù)更新自身并獲取新知識的系統(tǒng),而不遺忘先前學(xué)到的信息,類似于人類學(xué)習(xí)[34]。這一范式在基礎(chǔ)語言模型(LMs)的背景下尤為重要,因?yàn)樗鼈兠媾R災(zāi)難性遺忘(CF)和跨任務(wù)知識轉(zhuǎn)移(KT)等特定問題。災(zāi)難性遺忘是一個(gè)顯著挑戰(zhàn),模型在學(xué)習(xí)新信息時(shí)傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應(yīng)新的語言趨勢的同時(shí),保持對過去語言數(shù)據(jù)的穩(wěn)固掌握。此外,跨任務(wù)知識轉(zhuǎn)移對于增強(qiáng)持續(xù)學(xué)習(xí)過程至關(guān)重要。有效的知識轉(zhuǎn)移不僅加速新任務(wù)的學(xué)習(xí)曲線(前向轉(zhuǎn)移),還通過新知識的反饋提高模型在先前任務(wù)上的性能(反向轉(zhuǎn)移)。
持續(xù)學(xué)習(xí)方法的最新進(jìn)展大大提升了基礎(chǔ)語言模型(LMs)的適應(yīng)性和知識保留能力。這些進(jìn)展對于解決CL中先前觀察到的復(fù)雜挑戰(zhàn)至關(guān)重要。研究人員制定了創(chuàng)新策略來減輕這些挑戰(zhàn),從而使LMs能夠在各種任務(wù)中保持高性能,同時(shí)持續(xù)整合新知識[30, 99, 134]。在不同的下游任務(wù)中記錄了顯著的成功,例如基于方面的情感分析,其中持續(xù)學(xué)習(xí)使動(dòng)態(tài)適應(yīng)不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術(shù)通過持續(xù)交互幫助模型改進(jìn)和擴(kuò)展其對話能力[164]。在文本分類中,持續(xù)學(xué)習(xí)促進(jìn)了新類別的整合和對文本分布變化的調(diào)整,而無需完全重新訓(xùn)練[158]。此外,在視覺問答領(lǐng)域,持續(xù)學(xué)習(xí)對于更新模型處理和響應(yīng)新類型視覺內(nèi)容和查詢的能力至關(guān)重要[148, 220]。上述工作強(qiáng)調(diào)了持續(xù)學(xué)習(xí)對提升基礎(chǔ)語言模型性能的潛力。
在持續(xù)學(xué)習(xí)領(lǐng)域,傳統(tǒng)方法向整合基礎(chǔ)語言模型的方法發(fā)生了顯著的范式轉(zhuǎn)變(見圖1)。首先,基礎(chǔ)語言模型由于在大規(guī)模數(shù)據(jù)集上的廣泛預(yù)訓(xùn)練,展示了增強(qiáng)的泛化和遷移學(xué)習(xí)能力。模型具有快速適應(yīng)下游任務(wù)的專門遷移能力,只需少量樣本。因此,在促進(jìn)新技能獲取的同時(shí),減輕零樣本遷移和歷史任務(wù)能力的退化至關(guān)重要。其次,由于基礎(chǔ)語言模型中大量的參數(shù),采用參數(shù)高效技術(shù)[59]如提示調(diào)優(yōu)[119]和適配器[140],無需全面重新訓(xùn)練即可更新參數(shù)。第三,基礎(chǔ)語言模型具備通過指令學(xué)習(xí)[39, 144]進(jìn)行動(dòng)態(tài)和上下文感知交互的能力。
本綜述系統(tǒng)地將這些策略和技術(shù)分類為兩個(gè)核心領(lǐng)域:離線持續(xù)學(xué)習(xí)和在線持續(xù)學(xué)習(xí)(圖2)。我們首先給出離線和在線CL的詳細(xì)定義和場景,其中離線CL包括領(lǐng)域增量、任務(wù)增量和類別增量CL,而在線CL包括硬任務(wù)邊界和模糊任務(wù)邊界。這些學(xué)習(xí)策略進(jìn)一步細(xì)分為基于預(yù)訓(xùn)練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結(jié)了與傳統(tǒng)方法、持續(xù)預(yù)訓(xùn)練方法、參數(shù)高效調(diào)優(yōu)方法和基于指令方法相關(guān)的論文。最后,我們從多個(gè)角度統(tǒng)計(jì)了主要數(shù)據(jù)集,并回顧了評估模型遺忘和知識轉(zhuǎn)移的關(guān)鍵指標(biāo)。
- 我們?nèi)婊仡櫫爽F(xiàn)有的基于基礎(chǔ)語言模型的持續(xù)學(xué)習(xí)方法文獻(xiàn),這些方法將基礎(chǔ)語言模型與CL整合起來,在不重新訓(xùn)練模型的情況下學(xué)習(xí)新知識。這與傳統(tǒng)CL大不相同,因?yàn)榛A(chǔ)語言模型具有強(qiáng)大的遷移學(xué)習(xí)、零樣本和指令跟隨能力,并且參數(shù)龐大。
- 我們定義了不同的設(shè)置,并將這些研究分類為各種類型,以便更好地理解該領(lǐng)域的發(fā)展。除了傳統(tǒng)方法如重放、正則化和參數(shù)隔離算法外,我們還總結(jié)了持續(xù)預(yù)訓(xùn)練方法、參數(shù)高效調(diào)優(yōu)方法和基于指令調(diào)優(yōu)的方法。
- 我們提供了現(xiàn)有持續(xù)學(xué)習(xí)數(shù)據(jù)集的特征,并展示了評估防止遺忘和知識轉(zhuǎn)移性能的主要指標(biāo)。
- 我們討論了基于基礎(chǔ)語言模型的持續(xù)學(xué)習(xí)面臨的最具挑戰(zhàn)性的問題,并指出了該領(lǐng)域未來有前景的研究方向。
本文結(jié)構(gòu)如下:在第2節(jié)中,我們回顧了與持續(xù)學(xué)習(xí)相關(guān)的主要綜述。然后,在第3節(jié)中,我們介紹了持續(xù)學(xué)習(xí)的基本設(shè)置和學(xué)習(xí)模式,包括CL的定義和場景。此外,我們在第4節(jié)中展示了與離線持續(xù)學(xué)習(xí)相關(guān)的研究,這些研究可以分為領(lǐng)域增量學(xué)習(xí)、任務(wù)增量學(xué)習(xí)和類別增量學(xué)習(xí)。在第5節(jié)中,我們重點(diǎn)介紹了在線持續(xù)學(xué)習(xí),包括硬任務(wù)邊界和模糊任務(wù)邊界設(shè)置。第6和第7節(jié)提供了典型數(shù)據(jù)集和指標(biāo)。最后,我們在第8節(jié)分析了挑戰(zhàn)和進(jìn)一步的工作,并在第9節(jié)給出結(jié)論。