<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          NLP的“第四范式”之Prompt Learning總結(jié):44篇論文逐一梳理

          共 13854字,需瀏覽 28分鐘

           ·

          2021-11-07 17:17

          作者?|?楊浩?@阿里達(dá)摩院??

          研究方向?|?自然語(yǔ)言處理?

          整理?|?Paperweekly



          背景

          隨著 GPT-3 誕生,最大的版本多達(dá) 1750 億參數(shù),是 BERT-BASE 的一千多倍。事實(shí)上 GPT-3 的論文叫做 Language Models are Few-Shot Learner,顧名思義 GPT-3 主打的是小樣本學(xué)習(xí)。GPT-3 最大的創(chuàng)新是可以用 prompt 直接前向做下游任務(wù),從而不引進(jìn)新的參數(shù),打破了傳統(tǒng) pretrain+fintune 的模式,本質(zhì)是通過挖掘預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)做下游任務(wù)。那么如何用較小的預(yù)訓(xùn)練模型充分發(fā)揮預(yù)訓(xùn)練語(yǔ)言模型作為語(yǔ)言模型的作用,做下游任務(wù)。所以引出了最近一系列工作,基于 prompt 的新的訓(xùn)練范式。

          好處:

          1. 相比之前每個(gè)任務(wù)定義一套參數(shù),在輸入加上特定的信息,不需要改變整個(gè)模型的參數(shù),從而提升效率和存儲(chǔ)空間。

          2. 傳統(tǒng) pretrain+fintune 的訓(xùn)練方式是有 gap 的,需要從大規(guī)模無監(jiān)督數(shù)據(jù)訓(xùn)練遷移到下游 finetune 的任務(wù),prompt-based 的方式打破了這個(gè)方式。



          論文整理——按照時(shí)間線


          1. Parameter-Efficient Transfer Learning for NLP ICML 2019 2019.2.2

          motivation:?

          將 adapter 加入到 transformer 中,在針對(duì)某個(gè)下游任務(wù)微調(diào)時(shí),改變的僅僅是? adapter 的參數(shù)。


          2. To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks 2019 2019.3.14

          motivation:?

          微調(diào)還是凍結(jié)?這是一個(gè)值得考慮的問題。當(dāng)前有很多工作都集中在了預(yù)訓(xùn)練目標(biāo)函數(shù)和模型結(jié)構(gòu)的研究,而少有專門研究模型遷移的工作。本文討論了凍結(jié)(frozen)和微調(diào)(fine-tuning)在不同任務(wù)上的表現(xiàn),得到的結(jié)論是可以預(yù)想到的:不同遷移方式的表現(xiàn)取決于預(yù)訓(xùn)練任務(wù)和下游任務(wù)的相關(guān)性。

          3. Commonsense Knowledge Mining from Pretrained Models 2019 2019.9.2

          motivation:?

          利用 LM score 完成知識(shí) prompt 的篩選

          4. Language Models as Knowledge Bases? ACL 2019 -2019.9.3

          motivation:

          語(yǔ)言模型可以作為關(guān)系知識(shí)的潛在表示形式,對(duì)預(yù)先訓(xùn)練的現(xiàn)成語(yǔ)言模型(例如 ELMo 和 BERT)中已經(jīng)存在的關(guān)系知識(shí)提取。在 kownledge-base complete 任務(wù)上利用語(yǔ)言模型預(yù)測(cè)的分?jǐn)?shù),完成知識(shí)提取,相比 elmo 等模型表現(xiàn)要好。需要人工標(biāo)注 query 也就是模板。

          method:


          5. E-BERT: Efficient-Yet-Effective Entity Embeddings for BERT EMNLP 2020 2019.11.9

          motivation:?

          將實(shí)體信息的 embedding 通過映射到 bert embedding 融入到 Bert 中,來增強(qiáng) bert 對(duì) LAMA 等知識(shí)探測(cè)數(shù)據(jù)集的能力,同時(shí)發(fā)現(xiàn)模型可以根據(jù)表面的實(shí)體名稱來進(jìn)行預(yù)測(cè),而不是真正學(xué)習(xí)到了知識(shí)。例如,讓模型預(yù)測(cè)某個(gè)人的母語(yǔ)時(shí),模型可能會(huì)因?yàn)檫@個(gè)人的姓名較為偏向意大利的取名風(fēng)格而直接預(yù)測(cè)他的母語(yǔ)是意大利語(yǔ)。


          6. How Can We Know What Language Models Know? TACL 2020 2019.11.28

          motivation:?

          運(yùn)用完形填空形式,運(yùn)用一個(gè)檢測(cè)語(yǔ)言模型是否具有某些知識(shí)的探針任務(wù)。LPAQA 旨在改進(jìn) LAMA 的模版(query),為檢測(cè) LM 中的知識(shí)提供一個(gè)更嚴(yán)格的下界?

          method:?

          1. Mining-based Generation:基于遠(yuǎn)程監(jiān)督的假設(shè)(即出現(xiàn)相同實(shí)體對(duì)的句子表達(dá)相同的關(guān)系),在 Wikipedia sentence 中尋找包含頭尾實(shí)體 h、t 的句子,然后進(jìn)一步提出了兩種 prompt 抽取方法;

          2. Middle-word Prompts:對(duì)于 h、t 中間包含文本的句子形式,將 h、t 中間的文本當(dāng)作 prompt;

          3. Dependency-based Prompts:對(duì)于其他句子,使用句法依賴解析來提取 h 和 t 最短的路徑,并將路徑上的詞作為 prompt;

          4. Paraphrasing-based Generation:類似查詢拓展技術(shù),在保持原 prompt 語(yǔ)義同時(shí)增加詞匯的多樣性。這種方法依賴反向翻譯(back-translation),即翻譯到另一種語(yǔ)言再翻譯回來,構(gòu)成多個(gè)樣本后根據(jù)往返概率(round-trip probability)篩選 prompt。

          5. ensemble: Top-1 Prompt Selection:用 LM,取 acc 最高的 prompt;Rank-based Ensemble:除了? Top-1 方案,有時(shí)候需要保持多個(gè)模版來增強(qiáng)效果,即選取前 K 個(gè)模版;Optimized Ensemble:通過 LM 的預(yù)測(cè)為不同的 prompt 賦權(quán)。

          7. Zero-shot Text Classification With Generative Language Models NeurIPS 2019 2019.12.10

          motivation:?

          針對(duì) zero-shot 任務(wù)進(jìn)行任務(wù)統(tǒng)一(轉(zhuǎn)換成 qa 問題),利用 taskdescription(prompt),快速適應(yīng)新的任務(wù) method:


          8. Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference EACL 2021 2020.1.21

          motivation:?

          如何用較小的預(yù)訓(xùn)練模型充分發(fā)揮預(yù)訓(xùn)練模型作為語(yǔ)言模型的作用,做 fewshotlearning,做法是分類轉(zhuǎn)化為完形填空?


          9. How Context Affects Language Models\' Factual Predictions AKBC 2020 2020.5.10

          motivation:?

          模型在進(jìn)行預(yù)訓(xùn)練時(shí)使用到的無監(jiān)督文本語(yǔ)料非常龐大,包含了相當(dāng)多的知識(shí),很難保證現(xiàn)有的預(yù)訓(xùn)練模型能夠?qū)⑦@些知識(shí)全部存儲(chǔ)在模型參數(shù)中并且之后可以足夠準(zhǔn)確的將這些知識(shí)提取出來。針對(duì)這個(gè)問題,嘗試通過加入有關(guān)的上下文信息來提升模型提取知識(shí)的準(zhǔn)確率。

          method: Oracle-Based(ORA):挑選問題對(duì)應(yīng)的事實(shí)樣本在維基百科中的周圍文本片段作為上下文。Retrieve(RET):選擇 DrQA 的檢索系統(tǒng)(TF-IDF)檢索出的第一段文本作為上下文。

          Generate(GEN):將問題作為前綴輸入語(yǔ)言模型,對(duì)上下文進(jìn)行自回歸生成。Adversary(ADV):利用和問題具有相同關(guān)系類型但不同實(shí)體答案的問題,以 ORA 的方式挑選出包含無關(guān)信息的上下文。

          ???

          10. It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners NAACL 2021 2020.9.15

          motivation:?

          解決 label mask 預(yù)測(cè)多 token 問題。method: 選擇分?jǐn)?shù)最高的一個(gè) token 為基準(zhǔn)計(jì)算,替代多個(gè) token 完形填空的分?jǐn)?shù)計(jì)算


          11. Automatically Identifying Words That Can Serve as Labels for Few-Shot Text Classification COLING 2020 2020.10.26

          motivation:?

          小樣本文本分類模型 PET 的基礎(chǔ)上進(jìn)行擴(kuò)展,將原來目標(biāo)中的多分類最大似然估計(jì)替換為多個(gè) one-vs-rest 分類。這樣就能夠充分利用輸入數(shù)據(jù),同時(shí)減小標(biāo)簽和填空詞之間的映射選擇。通過這種方式,提出的方法就能夠在小樣本上也取得非常好的效果。同時(shí)通過實(shí)驗(yàn)發(fā)現(xiàn),本文提出的方法找到的映射關(guān)系幾乎可以與人工構(gòu)建的映射關(guān)系一樣好。

          12. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts EMNLP 2020 2020.10.29

          motivation:

          提出一種基于梯度的模版搜索方案

          method:


          12. Parameter-Efficient Transfer Learning with Diff Pruning 2020 2020.12.14

          motivation:?

          adapter 的延續(xù),將原來的參數(shù)上增加新參數(shù)(L0 正則約束稀疏性)

          13. Few-Shot Text Generation with Pattern-Exploiting Training 2020 2020.12.22

          motivation:?

          將 PET 運(yùn)用到文本生成,模型采用谷歌 PEGASES(encoder(mask),decoder(生成 mask 的部分),這種模型結(jié)構(gòu)適合 PET)


          14. Making Pre-trained Language Models Better Few-shot Learners ACL 2021 2020.12.31

          motivation:?

          AUTOPROMPT 需要大量樣本進(jìn)行基于梯度搜索,提出基于 t5 進(jìn)行模板生成的自動(dòng)化 pipline?

          method:?

          a)自動(dòng)化選擇標(biāo)簽詞:1. 通過未經(jīng)微調(diào)的預(yù)訓(xùn)練模型,對(duì)于訓(xùn)練集中的每一個(gè)類別,選擇 top-k 的單詞使得條件概率最大。2. 綜合每個(gè)類別下的候選標(biāo)簽詞,然后找出使得訓(xùn)練集正確率最大的 top-n 個(gè)分配方式。3. 通過對(duì) dev 集微調(diào),從 n 個(gè)分配方式中選擇最佳的一個(gè)標(biāo)簽詞,構(gòu)建標(biāo)簽映射關(guān)系 M。

          b)自動(dòng)化選擇模板 利用 t5 解碼生成多個(gè)候選模板,然后對(duì)每一個(gè)候選模板利用 dev 集微調(diào)、選擇其中一個(gè)最佳模板。



          15. Prefix-Tuning: Optimizing Continuous Prompts for Generation ACL 2021 2021.1.1

          motivation:?

          提出了 Prefix-Tuning,一種輕量級(jí) fintune 替代方法,用于對(duì)自然語(yǔ)言生成任務(wù)進(jìn)行微調(diào),在使語(yǔ)言模型參數(shù)凍結(jié)的同時(shí),去優(yōu)化一個(gè)參數(shù)量少的 continuous task-specific vector(稱為 prefix),用詞表中的詞初始化較好,并且和類別相關(guān)。在大多數(shù)任務(wù)上比 finetune 好。?

          method:?

          Prefix-tuning 是做生成任務(wù),它根據(jù)不同的模型結(jié)構(gòu)定義了不同的 Prompt 拼接方式,在 GPT 類的自回歸模型上采用 [PREFIX, x, y],在 T5 類的 encoder-decoder 模型上采用 [PREFIX, x, PREFIX\', y]。

          1. 把預(yù)訓(xùn)練大模型 freeze 住,因?yàn)榇竽P蛥?shù)量大,精調(diào)起來效率低,畢竟 prompt 的出現(xiàn)就是要解決大模型少樣本的適配。2. 直接優(yōu)化 Prompt 參數(shù)不太穩(wěn)定,加了個(gè)更大的 MLP,訓(xùn)練完只保存 MLP 變換后的參數(shù)就行了。3. 實(shí)驗(yàn)證實(shí)只加到 embedding 上的效果不太好,因此作者在每層都加了 prompt 的參數(shù),改動(dòng)較大。


          16. WARP: Word-level Adversarial ReProgramming ACL 2021 2021.1.1

          motivation:?

          不同于 Discrete Prompt 需要手工尋找或者學(xué)習(xí)離散的 token 作為 prompt,直接優(yōu)化 embedding 作為 prompt 。在 few shot 效果上超過 PET 和 GPT3(lm-tune),沒有超過 iPET,full shot 相差不多。節(jié)省效率。

          method:?

          把 prompt tokens 插入到輸入序列中,再經(jīng)過 encoder 和一個(gè) MLM head,然后通過計(jì)算分類的概率(分類交叉熵),同時(shí)證明了 prompt 少的話性能會(huì)下降。





          17. What Makes Good In-Context Examples for GPT-3? 2021 2021.1.17

          motivation:?

          根據(jù)相似度選擇 In-Context, order 根據(jù)相似度排序



          18. Calibrate Before Use: Improving Few-Shot Performance of Language Models ICML 2021 2021.2.19

          motivation:?

          本文的動(dòng)機(jī)是發(fā)現(xiàn) GPT-3,雖然可以在某種程度上實(shí)現(xiàn) zero/few shot learning,但 performance 非常不穩(wěn)定,尤其是在三個(gè)方面:prompt 的格式、few shot 的訓(xùn)練樣本,訓(xùn)練樣本的順序。

          Majority Label Bias 這種 bias 和監(jiān)督學(xué)習(xí)中的樣本不均衡現(xiàn)象類似,GPT-3 總是傾向于預(yù)測(cè)出常見的 label(其實(shí),不僅是 GPT-3,所有的機(jī)器學(xué)習(xí)模型都有這個(gè)問題),所以樣本的分布影響著結(jié)果。

          Recency Bias GPT-3 更傾向于預(yù)測(cè)離結(jié)尾最近的樣本 label,直覺上感覺這有點(diǎn)像災(zāi)難性遺忘,比如訓(xùn)練樣本是 PPNN,更傾向于預(yù)測(cè)出 N。甚至這種 bias 的影響會(huì)大于第一種,比如 PPPN,會(huì)大概率預(yù)測(cè)出 N。

          所以,這種 bias 也解釋了為什么樣本的順序會(huì)影響結(jié)果。Common Token Bias GPT-3 傾向于預(yù)測(cè)一些常見的詞(這個(gè)現(xiàn)象在前幾年對(duì)話系統(tǒng)也經(jīng)常會(huì)遇到,生成一個(gè) safe 但 meaningless 的話)?

          method:?

          通過一個(gè)放射變換將原有的概率 p 映射到 q,這里的 w 和 b 是需要學(xué)習(xí)的參數(shù)。但實(shí)際操作時(shí)存在一個(gè)問題,因?yàn)?prompt based learning 是一種? zero/few shot learning 方式,沒有足夠的樣本來訓(xùn)練 w 和 b。

          本文提出了一種 context-free input 來解決這個(gè)問題,用 N/A 作為輸入,提供給 GPT-3 模型,因?yàn)?N/A 并不是有效的輸入,理想情況下,GPT-3 應(yīng)該給出 50-50 的 Pos 和 Neg 比例,但實(shí)際給出了 61.3% 的 Neg,這正式 recency bias 帶來的問題。因此,可以通過手動(dòng)設(shè)定 w 和 b 的值,來 uniform model 的輸出。

          19. PADA: A Prompt-based Autoregressive Approach for Adaptation to Unseen Domains 2021 2021.2.24

          motivation:?

          利用 t5 的 embedding,選擇領(lǐng)域的代表關(guān)鍵詞(利用互信息),然后進(jìn)行領(lǐng)域遷移(挖掘領(lǐng)域共現(xiàn)關(guān)鍵)


          20. How Many Data Points is a Prompt Worth? NAACL 2021 2021.3.15

          motivation:?

          論文證明這個(gè) < MASK > 方法比模型加一個(gè)線性層做分類任務(wù)性能好。這個(gè)方法比傳統(tǒng)任務(wù)(例如:加一個(gè)線性層做分類任務(wù))用的樣本少,為幾分之一。針對(duì)任務(wù)的不同,只需用到幾百到幾千的樣本。

          21. GPT Understands, Too 2021 2021.3.18

          motivation:?

          P-tuning 重新審視了關(guān)于模版的定義,放棄了“模版由自然語(yǔ)言構(gòu)成”這一常規(guī)要求,從而將模版的構(gòu)建轉(zhuǎn)化為連續(xù)參數(shù)優(yōu)化問題,雖然簡(jiǎn)單,但卻有效。



          22. Improving and Simplifying Pattern Exploiting Training 2021 2021.3.22

          motivation:?

          預(yù)測(cè) mask token 的時(shí)候,只把和 class 相關(guān)的 token 的 logit 過 softmax 算概率,忽略了詞表中其他非 class token 的信息。具體來說,adapet 在預(yù)測(cè) mask token 的時(shí)候,先把詞表上所有 token 的 logit 過 softmax 算概率,然后把 class 相關(guān)的 token 拿出來,用 bce loss 去優(yōu)化:最大化 correct class token的概率,最小化非 correct class token 的概率。

          對(duì)于 label words 是 multi token 的情況,則最大化所有 correct class token 的 subtoken 的概率,最小化非correct class token 的 subtoken 的概率。Label Conditioning:隨機(jī) mask 原文中的詞,然后用 bce loss。最后超過 pet,沒有超過 ipet(用了無標(biāo)簽數(shù)據(jù))。



          23. Factual Probing Is [MASK]: Learning vs. Learning to Recall NAACL 2021 2021.4.12

          motivation:?

          將 AutoPrompt 離散搜索 prompt 的方式用于連續(xù) tuning 的初始化,同時(shí)發(fā)現(xiàn)比隨機(jī)初始化效果好,選擇 label 詞較好。


          24. Learning How to Ask: Querying LMs with Mixtures of Soft Prompts NAACL 2021 2021.4.14

          motivation:?

          利用 ensemble 優(yōu)化模板,學(xué)習(xí)哪個(gè)模板更有效,和如何融合模板:p-tuning+ensemble+em 算法,prompt 初始化是用挖掘的方式



          25. KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction 2021 2021.4.15

          motivation:?

          融入外部知識(shí)(實(shí)體,關(guān)系)的 embedding 當(dāng)做參數(shù),將關(guān)系分類設(shè)置成模板,采用 MASK 的方式訓(xùn)練,同時(shí)增 KE 的 loss 。

          method:


          26. Surface Form Competition-Why the Highest Probability Answer Isn’t Always Right 2021 2021.4.16

          motivation:?

          多項(xiàng)選擇任務(wù)中最高的概率回答是否最優(yōu)的問題。但是,按字符串概率排序可以由于表面形式競(jìng)爭(zhēng)而存在問題——其中不同的表面形式競(jìng)爭(zhēng)概率質(zhì)量,即使它們代表相同的基本概念,例如:“計(jì)算機(jī)”和“PC”。由于概率質(zhì)量是有限的,由于來自其他字符串的競(jìng)爭(zhēng)(如這是有效的答案,但不是多項(xiàng)選擇選項(xiàng)之一),這降低了正確答案的概率。

          作者提出領(lǐng)域條件點(diǎn)互信息,一種替代評(píng)分函數(shù),通過簡(jiǎn)單地根據(jù)與特定零樣本任務(wù)上下文中的先驗(yàn)可能性成正比的項(xiàng)重新權(quán)衡每個(gè)選項(xiàng),直接補(bǔ)償表面形式的競(jìng)爭(zhēng)。它在多種選擇數(shù)據(jù)集,在所有 GPT-2 和 GPT-3 模型上的零樣本性能方面取得了一致的收益。

          27. The Power of Scale for Parameter-Efficient Prompt Tuning 2021 2021.4.18?

          motivation:?

          驗(yàn)證當(dāng)模型參數(shù)變大時(shí)候(比如百億),prompt 的長(zhǎng)度,初始化,預(yù)訓(xùn)練目標(biāo)和訓(xùn)練 step 變得不那么重要,同時(shí)簡(jiǎn)單的 ensemble(投票)能提高效果。


          method:
          ?
          總體上 Prompt Tuning 與 P-Tuning ( P-tuning-GPT Understands, Too) 較為相似。但 Prompt Tuning 的 prompt 參數(shù)全部置于左側(cè),并且論文將注意力集中在了凍結(jié)模型權(quán)重的一系列實(shí)驗(yàn)上,更好的驗(yàn)證了 prompt 的效果。初始化prompt: sampled vocab:從 5000 個(gè) T5 字典最常用的 token 中提取。

          class label:從任務(wù) label 對(duì)應(yīng)的 token 中提取。由于任務(wù) label 通常數(shù)量較少,當(dāng)任務(wù) label 不夠滿足 prompt 參數(shù)長(zhǎng)度時(shí),使用 sampled vocab 進(jìn)行填充。當(dāng)一個(gè) label 存在 multi-token 時(shí),取其平均值。簡(jiǎn)單的 ensemble 能提升 prompt-tuning 的效果。

          28. Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity 2021 2021.4.18

          motivation:?

          prompt demonstration permutations,將隨機(jī) orders(24 個(gè))利用 Global Entropy 或者 Local Entropy 進(jìn)行排序,選擇最優(yōu)的。

          method:


          29. Entailment as Few-Shot Learner 2021 2021.4.29

          motivation:?

          針對(duì) few-shot 任務(wù)進(jìn)行任務(wù)統(tǒng)一(轉(zhuǎn)換成蘊(yùn)含問題),利用 taskdescription(prompt),快速適應(yīng)新的任務(wù)。

          method:


          30. PTR: Prompt Tuning with Rules for Text Classification 2021 2021.5.24

          motivation: prompt tuning + discrete token 解決多分類問題



          31. True Few-Shot Learning with Language Models 2021 2021.5.24

          motivation:?

          之前那些 prompt 的方法用了大量驗(yàn)證集信息來調(diào)整超參、選擇最好的 prompt。他們對(duì)性能的提升其實(shí)都來自驗(yàn)證集中蘊(yùn)含的信息。針對(duì)在沒有驗(yàn)證集的情況下提出了兩個(gè)方法:k 折交叉驗(yàn)證:將數(shù)據(jù)集分為 k 個(gè)部分,用其中 k-1 個(gè)部分作為訓(xùn)練集,剩下的一個(gè)部分作為驗(yàn)證集。在后面的實(shí)驗(yàn)中,這種方法被稱作 CV(cross validation)。

          類似在線學(xué)習(xí)的交叉驗(yàn)證:將數(shù)據(jù)集分為 k 個(gè)部分,第 1 輪用第 1 部分訓(xùn)練,第 2 部分驗(yàn)證,第 i 輪用前 i 部分訓(xùn)練,第 i+1 部分驗(yàn)證。在后面的實(shí)驗(yàn)中,這種方法被稱作 MDL(minimum description lengthm),因?yàn)槠浔举|(zhì)上遵循的是最小描述長(zhǎng)度準(zhǔn)則。

          result:在理想的驗(yàn)證集里,是能挑選出最好的 prompt 的,因此最好的 prompt 就代表了在理想的巨量驗(yàn)證集中挑選 prompt 最好的結(jié)果。在沒有驗(yàn)證集時(shí),提出的兩個(gè)交叉驗(yàn)證方法只能帶來理想驗(yàn)證集帶來的大約 25% 的性能增益。因此,沒了大量數(shù)據(jù)作為驗(yàn)證集,的確也就不能有很好的交叉驗(yàn)證效果了。


          32. Template-Based Named Entity Recognition Using BART ACL 2021 2021.6.3

          motivation:

          利用 bart 和模版完成 NER 任務(wù),隨機(jī)抽取 span 長(zhǎng)度 1-8,正負(fù)樣例 1:5,loss 為 cross-entropy。

          method:


          33. Reordering Examples Helps during Priming-based Few-Shot Learning 2021 2021.6.3

          motivation:?

          prompt demonstration permutations select + tuning separators 迭代多次,尋找最優(yōu)的 prompt。

          method:


          34. Can Generative Pre-trained Language Models Serve as Knowledge Bases for Closed-book QA ? ACL 2021 2021.6.3

          motivation:?

          預(yù)訓(xùn)練語(yǔ)言模型在一些 QA 數(shù)據(jù)集上能夠較好的完成閉卷問答任務(wù)的原因大部分是之前所使用的數(shù)據(jù)集(NaturalQuestions、WebQuestions 和 Trivia QA)的測(cè)試集和訓(xùn)練集的高重疊度,prompt 會(huì)自動(dòng)擬合數(shù)據(jù)分布,不依賴預(yù)訓(xùn)練語(yǔ)言模型中的知識(shí)。

          為此,基于 SQuAD 構(gòu)造了一個(gè)測(cè)試集和訓(xùn)練集低重疊的 Closed-Book QA 數(shù)據(jù)集,并用 BART 模型進(jìn)行了一系列實(shí)驗(yàn)測(cè)試,發(fā)現(xiàn)模型的表現(xiàn)的確很差。即使是在包含問題答案的文章語(yǔ)料上(SQuAD 的 passages)進(jìn)一步預(yù)訓(xùn)練后,模型回答問題的準(zhǔn)確率也相當(dāng)?shù)停?.8%),表明模型似乎并不具備較好的利用內(nèi)部知識(shí)的能力。?

          method:?

          為了探究模型表現(xiàn)不好的原因,本文進(jìn)一步構(gòu)造了兩階段的實(shí)驗(yàn),分別對(duì)模型的記憶能力和知識(shí)利用能力進(jìn)行測(cè)試:記憶能力:第一部分實(shí)驗(yàn)首先讓 BART 在包含問題答案的文章上用 Token Infilling 任務(wù)進(jìn)一步訓(xùn)練(LM-finetuning),然后在測(cè)試階段讓模型完成一個(gè)背誦任務(wù)(Reciting),即把文章中的問題答案 mask 掉,讓模型進(jìn)行還原。結(jié)果顯示模型只能對(duì)少量的文章進(jìn)行記憶,具備較弱的記憶能力。

          知識(shí)利用能力:第二部分實(shí)驗(yàn)則選取上一步實(shí)驗(yàn)中能背誦出大于 50% 知識(shí)的模型和對(duì)應(yīng)文章。讓模型進(jìn)一步進(jìn)行 QA-finetune 來做 Closed-book QA,以檢驗(yàn)?zāi)P褪欠衲芾糜涀〉闹R(shí)來回答問題。結(jié)果顯示,即使已經(jīng)能夠背誦出文章中被 mask 掉的問題答案,模型還是無法很好的利用記住的知識(shí)對(duì)問題進(jìn)行回答。

          35. Adaptable and Interpretable Neural Memory Over Symbolic Knowledge NAACL 2021 2021.6.6

          motivation:?

          在 BERT 的架構(gòu)基礎(chǔ)上加入了一個(gè)實(shí)體記憶模塊和事實(shí)記憶模塊,通過加入對(duì)實(shí)體、關(guān)系和三元組事實(shí)知識(shí)的編碼信息來增強(qiáng)文本表示,并在一定程度上模塊化的將模型中存儲(chǔ)的事實(shí)知識(shí)分離出來。提出的兩種記憶模塊中分別存儲(chǔ)了所有實(shí)體和三元組事實(shí)知識(shí)的嵌入表示,其中事實(shí)知識(shí)以 Key-Value 對(duì)的形式進(jìn)行存儲(chǔ)。模型通過在計(jì)算時(shí)對(duì)事實(shí)記憶模塊中的相關(guān)知識(shí)進(jìn)行檢索,以得到有利的知識(shí)信息輔助下游任務(wù)的完成。


          36. Knowledgeable or Educated Guess? Revisiting Language Models as Knowledge Bases ACL 2021 2021.6.17

          motivation:?

          設(shè)計(jì)實(shí)驗(yàn)分析之前的方法所衡量的,并不是模型的信息抽取能力,而是設(shè)計(jì)的 prompt 對(duì)原始數(shù)據(jù)集的擬合程度。并且驗(yàn)證基于 demonstration 的方法,更多是相似 type 信息泄露,同一 type 的數(shù)據(jù)進(jìn)行混合,發(fā)現(xiàn)只要 type 一致,最終的信息并不會(huì)差太多。


          37. Cutting Down on Prompts and Parameters: Simple Few-Shot Learning with Language Models 2021 2021.6.24

          motivation:?

          在 few-shot learning 場(chǎng)景下,通過微調(diào) transformer 中的 bias,超過 full-model finetuning(全量參數(shù)),節(jié)省參數(shù)存儲(chǔ),另外提出 null prompt,效果接近略差于有 prompt 效果。


          38. Multimodal Few-Shot Learning with Frozen Language Models 2021 2021.6.25

          motivation:

          基于 prompt-tuning 的多模態(tài)小樣本學(xué)習(xí)模型


          39. Meta-tuning Language Models to Answer Prompts Better 2021 2021.7.16

          motivation:

          針對(duì) few-shot 任務(wù)進(jìn)行任務(wù)統(tǒng)一(先轉(zhuǎn)換成蘊(yùn)含,然后轉(zhuǎn)換成 qa 問題),利用task description(prompt),快速適應(yīng)新的任務(wù)

          method:


          40. Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification 2021 2021.8.4

          motivation:

          對(duì)標(biāo)簽詞進(jìn)行擴(kuò)展,相當(dāng)于引入外部知識(shí)


          41. Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners 2021.8.30

          motivation:

          label 和 prompt 都改成連續(xù)的,增加模板 mask 詞目標(biāo)(代替 p-tuning 的 lstm),效果優(yōu)于 p-tuning


          41. Finetuned Language Models Are Zero-Shot Learners 2021.9.3

          motivation:

          利用 Instruction Tuning 進(jìn)行 multi-task 訓(xùn)練,在 11 個(gè)任務(wù)上訓(xùn)練(LM-tuning),在另一個(gè)沒見過的任務(wù)上進(jìn)行 zero-shot 測(cè)試,效果優(yōu)于 gpt3,進(jìn)一步說明Instruction Tuning 能激發(fā)語(yǔ)言模型的理解能力


          42. PPT: Pre-trained Prompt Tuning for Few-shot Learning 2021.9.9

          motivation:

          prompt pretraining 用于下游任務(wù),提供好的初始化 prompt,使得效果更穩(wěn)定


          43. Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning EMNLP 2021 2021.9.13

          motivation:

          利用大規(guī)模預(yù)訓(xùn)練模型提供的強(qiáng)大知識(shí),決海量參數(shù)與少量標(biāo)注樣本的不匹配問題,在前向傳播的時(shí)候保持與正常 fine-tune 一樣,利用整個(gè)模型的參數(shù)來編碼輸入樣本;在后向傳播傳播更新參數(shù)的時(shí)候,無需利用少量樣本來調(diào)整海量參數(shù),而是僅僅更新這么龐大的參數(shù)網(wǎng)絡(luò)中的一部分,即網(wǎng)絡(luò)中的一個(gè) Child Network。在 full-shot 和 few-shot 上超過 finetune。整個(gè)方法沒有利用 prompt。

          method:

          Step1:在預(yù)訓(xùn)練模型中發(fā)現(xiàn)確認(rèn) Child Network,并生成對(duì)應(yīng)的 Gradients Mask;

          Step2:在后向傳播計(jì)算完梯度之后,僅僅對(duì) Child Network 中的參數(shù)進(jìn)行更新,而其他參數(shù)保持不變。


          44. Multitask Prompted Training Enables Zero-Shot Task Generalization EMNLP 2021 2021.9.15

          motivation:

          和 FLAN 工作整體相似,區(qū)別是增加了任務(wù)和 prompt 數(shù)量(71 個(gè)多任務(wù)數(shù)據(jù)集,總共創(chuàng)建了 1939 個(gè) prompt),減小了模型參數(shù),效果超過 FLAN,證明了多任務(wù) prompt 學(xué)習(xí)能使模型更加魯棒、泛化能力更強(qiáng)




          總結(jié)


          目前難點(diǎn):

          1. PET:模板方差大,如何尋找好的模板;

          2. P-tuning/prompt-tning:局部?jī)?yōu)化,在初始化附近做 sgd,還是依賴初始化 embedding;

          3. 由于訓(xùn)練數(shù)據(jù)少,如何尋找好的統(tǒng)一任務(wù)形式,提升任務(wù)效果和泛化能力。

          展望:

          目前預(yù)訓(xùn)練語(yǔ)言模型對(duì)于知識(shí)和推理能力學(xué)習(xí)還不夠好,導(dǎo)致基于 prompt 的方法效果還沒發(fā)揮出來。不過從 gpt3 在 few-shot 上某些任務(wù) sota 來看,隨著預(yù)訓(xùn)練模型的發(fā)展越來越成熟,相信會(huì)帶來 prompt-based 方法的突破。

          一起交流

          想和你一起學(xué)習(xí)進(jìn)步!『NewBeeNLP』目前已經(jīng)建立了多個(gè)不同方向交流群(機(jī)器學(xué)習(xí) / 深度學(xué)習(xí) / 自然語(yǔ)言處理 / 搜索推薦 / 圖網(wǎng)絡(luò) / 面試交流 /?等),名額有限,趕緊添加下方微信加入一起討論交流吧!(注意一定o要備注信息才能通過)


          -?END?-




          高效深度學(xué)習(xí):讓模型更小、更快、更好!

          2021-11-03

          深度學(xué)習(xí)基礎(chǔ) | 超詳細(xì)逐步圖解 Transformer

          2021-11-02

          如何看待EMNLP2021 best paper? ? 邱錫鵬教授:以為走錯(cuò)會(huì)場(chǎng)了

          2021-11-01

          從Google Scholar看各大科技公司科研水平

          2021-10-30




          瀏覽 179
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操逼无码特写 | 欧美成人7601AV在线观看 | 一级a黄色电影片 | 国产激情视频网 | 天天躁日日躁狠狠躁欧美男男 |