<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          做情緒識別,有必要用LLM嗎?

          共 6307字,需瀏覽 13分鐘

           ·

          2023-10-15 19:25

          大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自李rumor

          情緒識別在各種對話場景中具有廣泛的應(yīng)用價值。例如,在社交媒體中,可以通過對評論進行情感分析來了解用戶的情緒態(tài)度;在人工客服中,可以對客戶的情緒進行分析,以更好地滿足其需求。

          此外,情緒識別還可以應(yīng)用于聊天機器人,通過實時分析用戶的情緒狀態(tài),生成基于用戶情感的回復(fù),從而提供更加個性化的交互體驗。對話情感識別(Emotion Recognition in Conversation)是一個分類任務(wù),旨在識別出一段對話序列 里面每句話 的情感標(biāo)簽。

          圖1給出了一個簡單的示例.對話中的話語情緒識別并不簡單等同于單個句子的情緒識別,需要綜合考慮對話中的背景、上下文、說話人等信息。

          圖1.對話情緒識別示例


          長期以來,由于ERC任務(wù)強依賴于上下文的理解,基于Roberta的方法即便是在2023年也有接近SOTA的性能,基于Prompt的模型微調(diào)方法雖然有但不是主流,在測試集上表現(xiàn)總不如傳統(tǒng)方法粗暴有用.所以對話情感識別任務(wù)領(lǐng)域一直呈現(xiàn)單句話語特征微調(diào)和人物交互細(xì)致建模兩方面的割裂發(fā)展。單句話語特征微調(diào)致力于在Glove和RoBERTa的模型上微調(diào)并抽取出單句的話語特征,而人物交互細(xì)致建模則更加注重于如何去設(shè)計話語間,人物間的相互影響來實現(xiàn)精準(zhǔn)的情緒識別。

          ChatGPT問世以后,幾乎所有的NLP任務(wù)都在往LLM范式遷移,但ERC任務(wù)始終沒有進展,一方面研究者們并沒有找到好的Instruction框架來激發(fā)模型的能力,另外一方面一些用LLM做ERC的淺嘗輒止嘗試而得到的較差的結(jié)果讓人們普遍覺得用十億級別的語言模型來得到一個比小模型差的多的結(jié)果實在是大炮打蚊子——小題大作。

          表1: ChatGPT在ERC任務(wù)的性能測試

          而我們近期的研究則較好地解決了上述兩個問題,并且在三個經(jīng)典榜單上都取得了較大的提升,今天有幸與大家分享我們的方案以及思考。

          Paper: https://arxiv.org/abs/2309.11911
          Code: https://github.com/LIN-SHANG/InstructERC

          InstructERC:以生成式視角重構(gòu)ERC任務(wù)

          圖2: ERC模型范式變遷

          圖3: RoBERTa-base和Decoder-base支持下游任務(wù)的區(qū)別

          由于預(yù)訓(xùn)練方式從Encoder到Decoder的變遷,以Prompt-tuning為代表的技術(shù)核心思想為改造下游任務(wù)形式,使之符合語言模型的訓(xùn)練范式以便更好的激發(fā)語言模型在下游任務(wù)上的表現(xiàn)能力,很多NLP任務(wù)都被統(tǒng)一為了Seq2Seq的結(jié)構(gòu),以生成式的方式來解決。

          不破不立,對于ERC這種傳統(tǒng)判別式任務(wù),InstructERC率先用純生成式的框架來重構(gòu)ERC任務(wù),具體結(jié)構(gòu)如下:

          圖4: InstructERC總體概覽圖


          觀察InstructERC總體概覽圖,主體部分為Retrieval Template Module和兩個情感對齊任務(wù),Retrieval Template Module,將傳統(tǒng)的判別式框架的 ERC 模型轉(zhuǎn)變?yōu)榱伺c LLM 結(jié)合的生成式的模型框架。ERC 任務(wù)強依賴于歷史話語的情感分析 ,同時說話人在表達自己的情感傾向也著強烈的特點,可能是直抒胸臆,也可能反問,最后如果對話中存在多個人物(MELD,EmoryNLP),那么如何去考量對話之間的關(guān)系,當(dāng)前的話語的情緒表達是針對哪句歷史話語的回復(fù)等都需要被建模。具體來看:

          • Retrieval Template Module通過一個由historical window超參數(shù)控制的窗口來控制輸入的歷史話語(沒有未來信息)以滿足輸出不超過LLM的input context limitation. 同時以Label Statement這種方式在穩(wěn)定模型輸出上有奇效.

          • Retrieval Template Module中的Demonstration Retrieval為當(dāng)前要識別的話語在訓(xùn)練集構(gòu)建的樣本庫檢索出一個最相近的樣本作為demostration以完成多種視角的incontext learning.在訓(xùn)練階段,由于我們知道樣本標(biāo)簽,我們選用和其標(biāo)簽一致的樣本進行相似度計算匹配,在推理階段,由于樣本標(biāo)簽未知則將整個樣本集進行計算匹配。

          • 由于對LLM進行模型架構(gòu)修改代價較大且不確定性因素較強,我們同樣采用prompt的方式來建模人物特征和對話關(guān)系,其由兩個情感對齊任務(wù)實現(xiàn)。

          • 在情感對齊任務(wù) 1中,我們設(shè)計了說話人識別的任務(wù),對原始的模型進行了初始的 SFT,SFT 后的模型作為后續(xù)ERC任務(wù)的SFT 基礎(chǔ)。通過這個任務(wù),可以很好的捕獲每個說話人的特征。

          • 在情感對齊任務(wù) 2中,我們設(shè)計了情感影響預(yù)測任務(wù),其添加在 Retrieval Template Module 后面,每一次輸出,模型需要執(zhí)行兩個情感識別任務(wù),一個當(dāng)前話語的情感識別,另一個是針對之前的歷史話語,來判斷它們對當(dāng)前這句話的情感影響,通過這個任務(wù),我們隱式地讓模型捕獲對話關(guān)系特征。


          刷三榜SOTA


          找到了正確的架構(gòu),LLM在ERC上面的表現(xiàn)可以說是亂殺如表2,需要解釋一下,ERC任務(wù)每次新 SOTA的Weighted-F1提升大概在 0.2-0.3個點,但是InstructERC僅僅以單模態(tài)的數(shù)據(jù)就在三個數(shù)據(jù)集上都拿到了 1-2 個點的顯著提升,比所有能夠驗證的單模態(tài),多模態(tài)模型的表現(xiàn)都要好。

          榜單排名見:IEMOCAP[1], MELD[2], EmoryNLP[3]

          表2: 主體實驗結(jié)果

          表格分為四部分組成,第一部分是Discriminant Models,由于InstructERC之前的模型都是判別式的,所以我選取了在三個數(shù)據(jù)集上使用不同判別式方法且表現(xiàn)最優(yōu)的模型來進行比較。第二部分是Zero-shot + InstructERC,目標(biāo)是探索在這些基座模型在InstructERC下的指令跟隨能力。第三部分是 LoRA+Backbone,目標(biāo)是為了消融 InstructERC的影響,單獨觀察 LoRA 的收益。第四部分是 LoRA+InstructERC,目標(biāo)是探索不同基座在InstructERC下的最佳性能表現(xiàn)。

          • Discriminant Models:我們分別從 Attention,Recurrent,Knowledge,Graph 和 Multimodel中選擇表現(xiàn)最優(yōu)異的模型,可以發(fā)現(xiàn)他們的SOTA只集中在某一個數(shù)據(jù)集,而 InstructERC在三個數(shù)據(jù)集上均取得了SOTA。

          • Zero-Shot + InstructERC:從基座的指令遵循能力方面來看,由于我們采用的 LLaMA 都是原始版本,并非 chat,所以相較于經(jīng)過指令遵循精調(diào)后的ChatGLM 類模型,其按要求輸出的能力比較差,很多時候不輸出或者輸出重復(fù)的無關(guān)內(nèi)容,而 ChatGLM 類模型雖然具備一定的遵循能力,但是很多時候會輸出一些和標(biāo)簽相近但不正確的答案,比如輸出pity----標(biāo)簽 sad, 輸出touched----標(biāo)簽 happy 等,這一部分的 Zero-Shot 的bias 可能后續(xù)需要一些成熟的解決大模型幻覺的方法來解。

          • LoRA+Backbone:使用最簡單的prompt,但是用LoRA 進行精調(diào),可以觀察到 LLM在 ERC 上的性能出現(xiàn)了大的提升,尤其是 MELD 數(shù)據(jù)集達到了接近 SOTA 的水平。

          • LoRA+InstructERC:使用 instructERC 框架和 LoRA 方式進行微調(diào),可以觀察到 在 Backbone 的基礎(chǔ)上出現(xiàn)了更大的提升,同時可以觀察到在較于 Backbone,在InstructERC下,LLaMA2 較于 LLaMA 的基座增益明顯。

          全參數(shù)和LoRA的對比在這里[4],就不多敘述了.我們想重點說說下面有意思的實驗和發(fā)現(xiàn).

          One More Thing (Unified Dataset Experiments)


          我們能否做一個更加苛刻的模型泛化性實驗?zāi)?

          剛剛用到的三個benchmark是各有千秋的,IEMOCAP對話輪次長,MELD對話簡短,角色豐富,EmoryNLP類別不均衡嚴(yán)重。他們分別展現(xiàn)了我們?nèi)粘I钪胁煌囊恍υ拡鼍啊T谶@三個對話場景下能夠同時取得SOTA已經(jīng)能夠說明InstructERC的泛化性了。我們更進一步,以1982的論文中提出的The feeling Whale,對三個數(shù)據(jù)集做了以下對齊:

          表3: 統(tǒng)一標(biāo)簽映射



          圖5: The feeling Whale


          我們依舊使用PEFT中的lora方法對InstructERC在統(tǒng)一數(shù)據(jù)集上進行訓(xùn)練,訓(xùn)練的結(jié)果在三個數(shù)據(jù)集上分別評測。同時,為了探究不同數(shù)據(jù)混合策略和數(shù)據(jù)數(shù)量對模型的影響,我們設(shè)計了等比例采樣和混合數(shù)據(jù)采樣評測實驗,在此基礎(chǔ)之上,我們更進一步探索了數(shù)據(jù)采樣比例對模型的性能影響,結(jié)果如下表4所示,一個更加直觀的結(jié)果如圖6所示。

          表4: 使用LLaMA2作為模型基座的統(tǒng)一數(shù)據(jù)集實驗


          圖6: 使用LLaMA2作為模型基座的統(tǒng)一數(shù)據(jù)集實驗

          • 如表4第一行所示,在使用了統(tǒng)一數(shù)據(jù)集對InstructERC進行finetune的情況下,雖然相較于single數(shù)據(jù)集訓(xùn)練下的SOTA,三個benchmark的性能出現(xiàn)了輕微下降,但是依舊能夠三這三個benchmark上同時保持較高的W-F1,尤其是MELD的性能依舊是領(lǐng)先所有小模型的SOTA水平。因此可以看到,我們對于數(shù)據(jù)集的處理簡單但是高效,另外,基于Llama2大模型基座的InstructERC展現(xiàn)了非凡的魯棒性,能夠同時習(xí)得來自多種不同分布的情緒范式,這是以往小模型無法做到的。

          • 大模型具有強大的學(xué)習(xí)能力,因此在我們的框架下驗證the data scaling law是非常重要的一部分。我們對Unified dataset做了從1到1/64的 data scaling 實驗,可以看到隨著訓(xùn)練數(shù)據(jù)規(guī)模從1到1/32范圍內(nèi)指數(shù)級減少,模型在三個benchmark上的性能呈現(xiàn)輕微波動的的線性下降。這和現(xiàn)有的一些大模型探索結(jié)論一致。

          • 我們同時驚訝的發(fā)現(xiàn),在訓(xùn)練數(shù)據(jù)在最后的1/32到1/64階段,Total Mix和Ratio Mix策略依舊呈現(xiàn)線性的性能下降,但是single方式訓(xùn)練下的模型性能出現(xiàn)了非常猛烈的下降如圖6所示。我們認(rèn)為不同場景的數(shù)據(jù)給予了模型從不同角度理解情緒的能力,這使得模型在不同的數(shù)據(jù)下能夠獲得魯棒性較強的增益,這種增益在低資源情境(1/64)下尤為明顯.

          • 我們進一步探索了不同混合策略對data scaling的影響,在total mix設(shè)定下,所有的數(shù)據(jù)集都混在一起進行統(tǒng)一抽樣。而在Ratio mix設(shè)定下,數(shù)據(jù)集被分別抽樣然后混合在一起,這兩種在訓(xùn)練數(shù)據(jù)的數(shù)量上保持一致,但是由于MELD和EmoryNLP的訓(xùn)練數(shù)據(jù)絕對數(shù)量較多,導(dǎo)致,在Total mix設(shè)定下的來源于這兩個數(shù)據(jù)集的訓(xùn)練樣本更多,所以比較total mix和ratio mix,可以發(fā)現(xiàn)iemocap,meld和EmoryNLP因為訓(xùn)練數(shù)據(jù)的多與少,有一定的表現(xiàn)偏差。


          總結(jié)與展望


          LLM時代,模型即產(chǎn)品,模型即應(yīng)用,LLM本身強大的能力如需賦能傳統(tǒng)子任務(wù),除了使用更加優(yōu)良的模型基座以外,本質(zhì)上是在Prompt和demonstration上面找創(chuàng)新。可以認(rèn)為,GNN-based、Recurrent-Attenton-based方法是在為所需評測的數(shù)據(jù)集進行單獨的優(yōu)化的和設(shè)計。

          如果假定一定存在一個完美的ERC分類器,那么傳統(tǒng)的基于RoBERTa的方法與使用LLM進行fintune的方法進行比較。前者可以看作是人為搜索到了一個不錯的局部最優(yōu)架構(gòu),在這個架構(gòu)內(nèi)部的參數(shù)空間進行finetune。

          而后者可以看作是在浩如煙海的參數(shù)空間中,固定絕大部分參數(shù),讓見過近2Ttoken的LLM在Lora的低秩層習(xí)得一個適配于數(shù)據(jù)集的局部最優(yōu),雖然可微調(diào)的參數(shù)量都大差不差,但是LLM背后的知識是傳統(tǒng)模型無法企及的,我想這些應(yīng)該是是數(shù)據(jù)集單獨訓(xùn)練保持SOTA且統(tǒng)一數(shù)據(jù)集實驗性能依舊堅挺的原因。

          LLM的路依舊很長,InstructERC可以看做是一個小trick,希望大家能夠一起探索LLM賦能更多子任務(wù)的精彩表現(xiàn)!

          參考資料

          [1]IEMOCAP: https://paperswithcode.com/sota/emotion-recognition-in-conversation-on?p=instructerc-reforming-emotion-recognition-in

          [2]MELD: https://paperswithcode.com/sota/emotion-recognition-in-conversation-on-meld?p=instructerc-reforming-emotion-recognition-in

          [3]EmoryNLP:https://paperswithcode.com/sota/emotion-recognition-in-conversation-on-4?p=instructerc-reforming-emotion-recognition-in

          [4]All Parameters vs Parameter Efficiency: https://github.com/LIN-SHANG/InstructERC#all-parameters-vs-parameter-efficiency


          租!GPU云資源
          新上線一批A100/A800
          運營商機房,服務(wù)有保障
          掃碼了解詳情?


          點「在看」的人都變好看了哦!
          瀏覽 1109
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大大香蕉伊人网 | 小骚逼黄色大片 | 7799精品视频天天看 | 高潮喷水不止视频 | 粉嫩在线视频 |