NLP 面無(wú)不過(guò) 更新版
介紹:本項(xiàng)目是作者們根據(jù)個(gè)人面試和經(jīng)驗(yàn)總結(jié)出的自然語(yǔ)言處理(NLP)面試準(zhǔn)備的學(xué)習(xí)筆記與資料,該資料目前包含 自然語(yǔ)言處理各領(lǐng)域的 面試題積累。
Github 地址:https://github.com/km1994/NLP-Interview-Notes
NLP 面無(wú)不過(guò) 面試交流群 (注:人滿 可 添加 小編wx:yzyykm666 加群!)
四、NLP 學(xué)習(xí)算法 常見面試篇
4.1 信息抽取 常見面試篇
4.1.1 命名實(shí)體識(shí)別 常見面試篇
隱馬爾科夫算法 HMM 常見面試篇
一、基礎(chǔ)信息 介紹篇
1.1 什么是概率圖模型?
1.2 什么是 隨機(jī)場(chǎng)?
二、馬爾可夫過(guò)程 介紹篇
2.1 什么是 馬爾可夫過(guò)程?
2.2 馬爾可夫過(guò)程 的核心思想 是什么?
三、隱馬爾科夫算法 篇
...
點(diǎn)擊查看答案
最大熵馬爾科夫模型 MEMM 常見面試篇
四、最大熵馬爾科夫模型(MEMM)篇
4.1 最大熵馬爾科夫模型(MEMM)動(dòng)機(jī)篇
4.1.1 HMM 存在 什么問題?
4.2 最大熵馬爾科夫模型(MEMM)介紹篇
4.2.1 最大熵馬爾科夫模型(MEMM) 是什么樣?
4.2.2 最大熵馬爾科夫模型(MEMM) 如何解決 HMM 問題?
4.3 最大熵馬爾科夫模型(MEMM)問題篇
點(diǎn)擊查看答案
條件隨機(jī)場(chǎng)(CRF) 常見面試篇
五、條件隨機(jī)場(chǎng)(CRF)篇
5.1 CRF 動(dòng)機(jī)篇
5.1.1 HMM 和 MEMM 存在什么問題?
5.2 CRF 介紹篇
5.2.1 什么是 CRF?
5.2.2 CRF 的 主要思想是什么?
點(diǎn)擊查看答案
DNN-CRF 常見面試篇
一、基本信息
1.1 命名實(shí)體識(shí)別 評(píng)價(jià)指標(biāo) 是什么?
二、傳統(tǒng)的命名實(shí)體識(shí)別方法
2.1 基于規(guī)則的命名實(shí)體識(shí)別方法是什么?
2.2 基于無(wú)監(jiān)督學(xué)習(xí)的命名實(shí)體識(shí)別方法是什么?
2.3 基于特征的監(jiān)督學(xué)習(xí)的命名實(shí)體識(shí)別方法是什么?
三、基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法
...
點(diǎn)擊查看答案
中文領(lǐng)域 NER 常見面試篇
一、動(dòng)機(jī)篇
1.1 中文命名實(shí)體識(shí)別 與 英文命名實(shí)體識(shí)別的區(qū)別?
二、詞匯增強(qiáng)篇
2.1 什么是 詞匯增強(qiáng)?
2.2 為什么說(shuō) 「詞匯增強(qiáng)」 方法對(duì)于中文 NER 任務(wù)有效呢?
2.3 詞匯增強(qiáng) 方法有哪些?
2.4 Dynamic Architecture
點(diǎn)擊查看答案
命名實(shí)體識(shí)別 trick 常見面試篇
trick 1:領(lǐng)域詞典匹配
trick 2:規(guī)則抽取
trick 3:詞向量選取:詞向量 or 字向量?
trick 4:特征提取器 如何選擇?
trick 5:專有名稱 怎么 處理?
trick 6:標(biāo)注數(shù)據(jù) 不足怎么處理?
trick 7:嵌套命名實(shí)體識(shí)別怎么處理
點(diǎn)擊查看答案
4.1.2 關(guān)系抽取 常見面試篇
關(guān)系抽取 常見面試篇
一、動(dòng)機(jī)篇
1.1 什么是關(guān)系抽取?
1.2 關(guān)系抽取技術(shù)有哪些類型?
1.3 常見的關(guān)系抽取流程是怎么做的?
二、經(jīng)典關(guān)系抽取篇
2.1 模板匹配方法是指什么?有什么優(yōu)缺點(diǎn)?
2.2 遠(yuǎn)監(jiān)督關(guān)系抽取是指什么?它有什么優(yōu)缺點(diǎn)?
2.3 什么是關(guān)系重疊?復(fù)雜關(guān)系問題?
2.4 聯(lián)合抽取是什么?難點(diǎn)在哪里?
2.5 聯(lián)合抽取總體上有哪些方法?各有哪些缺點(diǎn)?
點(diǎn)擊查看答案
4.1.3 事件抽取 常見面試篇
事件抽取 常見面試篇
一、原理篇
1.1 什么是事件?
1.2 什么是事件抽取?
1.3 ACE測(cè)評(píng)中事件抽取涉及的幾個(gè)基本術(shù)語(yǔ)及任務(wù)是什么?
1.4 事件抽取怎么發(fā)展的?
1.5 事件抽取存在什么問題?
二、基本任務(wù)篇
...
4.2 NLP 預(yù)訓(xùn)練算法 常見面試篇
【關(guān)于TF-idf】那些你不知道的事
一、one-hot 篇
1.1 為什么有 one-hot ?
1.2 one-hot 是什么?
1.3 one-hot 有什么特點(diǎn)?
1.4 one-hot 存在哪些問題?
二、TF-IDF 篇
...
點(diǎn)擊查看答案
【關(guān)于word2vec】那些你不知道的事
一、Wordvec 介紹篇
1.1 Wordvec 指什么?
1.2 Wordvec 中 CBOW 指什么?
1.3 Wordvec 中 Skip-gram 指什么?
1.4 CBOW vs Skip-gram 哪一個(gè)好?
二、Wordvec 優(yōu)化篇
2.1 Word2vec 中 霍夫曼樹 是什么?
2.2 Word2vec 中 為什么要使用 霍夫曼樹?
點(diǎn)擊查看答案
【關(guān)于FastText】那些你不知道的事
一、fastText 動(dòng)機(jī)篇
1.1 word-level Model 是什么?
1.2 word-level Model 存在什么問題?
1.3 Character-Level Model 是什么?
1.4 Character-Level Model 優(yōu)點(diǎn)?
1.5 Character-Level Model 存在問題?
1.6 Character-Level Model 問題的解決方法?
二、 詞內(nèi)的n-gram信息(subword n-gram information) 介紹篇
2.1 引言
2.2 fastText 是什么?
點(diǎn)擊查看答案
【關(guān)于Elmo】那些你不知道的事
一、Elmo 動(dòng)機(jī)篇
1.1 為什么會(huì)有 Elmo?
二、Elmo 介紹篇
2.1 Elmo 的 特點(diǎn)?
點(diǎn)擊查看答案
4.3 Bert 常見面試篇
Bert 常見面試篇
一、動(dòng)機(jī)篇
1.1 【演變史】one-hot 存在問題?
1.2【演變史】wordvec 存在問題?
1.3【演變史】fastText 存在問題?
1.4【演變史】elmo 存在問題?
二、Bert 篇
2.1 Bert 介紹篇
2.1.1【BERT】Bert 是什么?
2.1.2【BERT】Bert 三個(gè)關(guān)鍵點(diǎn)?
2.2 Bert 輸入輸出表征篇
2.2.1 【BERT】Bert 輸入輸出表征長(zhǎng)啥樣?
2.3 【BERT】Bert 預(yù)訓(xùn)練篇
2.3.1 【BERT】Bert 預(yù)訓(xùn)練任務(wù)介紹
2.3.2 【BERT】Bert 預(yù)訓(xùn)練任務(wù) 之 Masked LM 篇
2.3.2.1 【BERT】 Bert 為什么需要預(yù)訓(xùn)練任務(wù) Masked LM ?
2.3.2.2 【BERT】 Bert 預(yù)訓(xùn)練任務(wù) Masked LM 怎么做?
點(diǎn)擊查看答案
【關(guān)于 Bert 源碼解析I 之 主體篇】那些你不知道的事
【關(guān)于 Bert 源碼解析II 之 預(yù)訓(xùn)練篇】那些你不知道的事
【關(guān)于 Bert 源碼解析III 之 微調(diào)篇】那些你不知道的事
【關(guān)于 Bert 源碼解析IV 之 句向量生成篇】那些你不知道的事
【關(guān)于 Bert 源碼解析V 之 文本相似度篇】那些你不知道的事
4.3.1 Bert 模型壓縮 常見面試篇
Bert 模型壓縮 常見面試篇
一、Bert 模型壓縮 動(dòng)機(jī)篇
二、Bert 模型壓縮對(duì)比表
三、 Bert 模型壓縮方法介紹
3.1 Bert 模型壓縮方法 之 低秩因式分解&跨層參數(shù)共享
3.1.1 什么是低秩因式分解?
3.1.2 什么是跨層參數(shù)共享?
3.1.3 ALBERT 所所用的方法?
點(diǎn)擊查看答案
4.3.2 Bert 模型系列 常見面試篇
認(rèn)識(shí) XLNet 么?能不能講一下?和 Bert 的 區(qū)別在哪里?
認(rèn)識(shí) RoBERTa 么?能不能講一下?和 Bert 的 區(qū)別在哪里?
認(rèn)識(shí) SpanBERT 么?能不能講一下?和 Bert 的 區(qū)別在哪里?
認(rèn)識(shí) MASS 么?能不能講一下?和 Bert 的 區(qū)別在哪里?
點(diǎn)擊查看答案
4.4 文本分類 常見面試篇
文本分類 常見面試篇
一、 抽象命題
1.1 分類任務(wù)有哪些類別?它們都有什么特征?
1.2 文本分類任務(wù)相較于其他領(lǐng)域的分類任務(wù)有何不同之處?
1.3 文本分類任務(wù)和文本領(lǐng)域的其他任務(wù)相比有何不同之處?
1.4 文本分類的過(guò)程?
二、數(shù)據(jù)預(yù)處理
2.1 文本分類任務(wù)的數(shù)據(jù)預(yù)處理方法有哪些?
2.2 你使用過(guò)哪些分詞方法和工具?
2.3 中文文本分詞的方法?
2.4 基于字符串匹配的分詞方法的原理 是什么?
2.5 統(tǒng)計(jì)語(yǔ)言模型如何應(yīng)用于分詞?N-gram最大概率分詞?
2.6 基于序列標(biāo)注的分詞方法 是什么?
2.7 基于(Bi-)LSTM的詞性標(biāo)注 是什么?
2.8 詞干提取和詞形還原有什么區(qū)別?
三、特征提取
3.1 (一個(gè)具體的)文本分類任務(wù)可以使用哪些特征?
3.2 (對(duì)于西文文本)使用單詞和使用字母作為特征相比,差異如何?
3.3 能不能簡(jiǎn)單介紹下詞袋模型?
3.4 n-gram 篇
3.4.1 什么是n元語(yǔ)法?為什么要用n-gram?
3.4.2 n-gram算法的局限性是什么?
3.5 主題建模篇
3.5.1 介紹一下主題建模任務(wù)?
3.5.2 主題建模的常用方法
3.5.3 TF-IDF算法是做什么的?簡(jiǎn)單介紹下TF-IDF算法
3.5.4 tf-idf高意味著什么?
3.5.5 tf-idf的不足之處
3.6 文本相似度篇
3.6.1 如何計(jì)算兩段文本之間的距離?
3.6.2 什么是jaccard距離?
3.6.3 Dice系數(shù)和Jaccard系數(shù)的區(qū)別?
3.6.4 同樣是編輯距離,萊文斯坦距離和漢明距離的區(qū)別在哪里?
3.6.5 寫一下計(jì)算編輯距離(萊溫斯坦距離)的編程題吧?
四、模型篇
4.1 fastText 篇
4.1.1 fastText的分類過(guò)程?
4.1.2 fastText的優(yōu)點(diǎn)?
4.2 TextCNN 篇
4.2.1 TextCNN進(jìn)行文本分類的過(guò)程?
4.2.2 TextCNN可以調(diào)整哪些參數(shù)?
4.2.3 使用CNN作為文本分類器時(shí),不同通道channels對(duì)應(yīng)著文本的什么信息?
4.2.4 TextCNN中卷積核的長(zhǎng)與寬代表了什么?
4.2.5 在TextCNN中的pooling操作與一般CNN的pooling操作有何不同?
4.2.6 TextCNN的局限性?
4.3 DPCNN 篇
4.3.1 如何解決長(zhǎng)文本分類任務(wù)?
4.3.2 簡(jiǎn)單介紹DPCNN模型相較于TextCNN的改進(jìn)?
點(diǎn)擊查看答案
文本分類 trick 常見面試篇
一、文本分類數(shù)據(jù)預(yù)處理 如何做?
二、文本分類 預(yù)訓(xùn)練模型 如何選擇?
三、文本分類 參數(shù) 如何優(yōu)化?
四、文本分類 有哪些棘手任務(wù)?
五、文本分類 標(biāo)簽體系構(gòu)建?
六、文本分類 策略構(gòu)建?
點(diǎn)擊查看答案
用檢索的方式做文本分類 常見面試篇
為什么需要用檢索的方式做文本分類?
基于檢索的方法做文本分類思路?
檢索的方法的召回庫(kù)如何構(gòu)建?
檢索的方法 的 訓(xùn)練階段 如何做?
檢索的方法 的 預(yù)測(cè)階段 如何做?
用檢索的方式做文本分類 方法 適用場(chǎng)景有哪些?
點(diǎn)擊查看答案
4.5 文本匹配 常見面試篇
文本匹配模型 ESIM 常見面試篇
為什么需要 ESIM?
介紹一下 ESIM 模型?
點(diǎn)擊查看答案
語(yǔ)義相似度匹配任務(wù)中的 BERT 常見面試篇
一、Sentence Pair Classification Task:使用 CLS
二、cosine similairity
三、長(zhǎng)短文本的區(qū)別
四、sentence/word embedding
五、siamese network 方式
點(diǎn)擊查看答案
4.6 問答系統(tǒng) 常見面試篇
4.6.1 FAQ 檢索式問答系統(tǒng) 常見面試篇
一、動(dòng)機(jī)
1.1 問答系統(tǒng)的動(dòng)機(jī)?
1.2 問答系統(tǒng) 是什么?
二、FAQ 檢索式問答系統(tǒng)介紹篇
2.1 FAQ 檢索式問答系統(tǒng) 是 什么?
2.2 query 匹配標(biāo)準(zhǔn) QA 的核心是什么?
三、FAQ 檢索式問答系統(tǒng) 方案篇
3.1 常用 方案有哪些?
3.2 為什么 QQ 匹配比較常用?
3.2.1 QQ 匹配的優(yōu)點(diǎn)有哪些?
3.2.2 QQ 匹配的語(yǔ)義空間是什么?
3.2.3 QQ 匹配的語(yǔ)料的穩(wěn)定性是什么?
4.6.2 問答系統(tǒng)工具篇 常見面試篇
Faiss 常見面試篇
一、動(dòng)機(jī)篇
1.1 傳統(tǒng)的相似度算法所存在的問題?
二、介紹篇
2.1 什么是 Faiss ?
2.2 Faiss 如何使用?
2.3 Faiss原理與核心算法
三、Faiss 實(shí)戰(zhàn)篇
3.1 Faiss 如何安裝?
4.7 對(duì)話系統(tǒng) 常見面試篇
對(duì)話系統(tǒng) 常見面試篇
一、對(duì)話系統(tǒng) 介紹篇
1.1 對(duì)話系統(tǒng)有哪幾種?
1.2 這幾種對(duì)話系統(tǒng)的區(qū)別?
二、多輪對(duì)話系統(tǒng) 介紹篇
2.1 為什么要用 多輪對(duì)話系統(tǒng)?
2.2 常見的多輪對(duì)話系統(tǒng)解決方案是什么?
三、任務(wù)型對(duì)話系統(tǒng) 介紹篇
3.1 什么是任務(wù)型對(duì)話系統(tǒng)?
3.2 任務(wù)型對(duì)話系統(tǒng)的流程是怎么樣?
3.3 任務(wù)型對(duì)話系統(tǒng) 語(yǔ)言理解(SLU)篇
3.3.1 什么是 語(yǔ)言理解(SLU)?
3.3.2 語(yǔ)言理解(SLU)的輸入輸出是什么?
3.3.3 語(yǔ)言理解(SLU)所使用的技術(shù)是什么?
...
點(diǎn)擊查看答案
RASA 常見面試篇
4.8 知識(shí)圖譜 常見面試篇
4.8.1 知識(shí)圖譜 常見面試篇
一、知識(shí)圖譜簡(jiǎn)介
1.1 引言
1.2 什么是知識(shí)圖譜呢?
1.2.1 什么是圖(Graph)呢?
1.2.2 什么是 Schema 呢?
1.3 知識(shí)圖譜的類別有哪些?
1.4 知識(shí)圖譜的價(jià)值在哪呢?
二、怎么構(gòu)建知識(shí)圖譜呢?
2.1 知識(shí)圖譜的數(shù)據(jù)來(lái)源于哪里?
2.2 信息抽取的難點(diǎn)在哪里?
2.3 構(gòu)建知識(shí)圖譜所涉及的技術(shù)?
2.4、知識(shí)圖譜的具體構(gòu)建技術(shù)是什么?
...三、知識(shí)圖譜怎么存儲(chǔ)?
四、知識(shí)圖譜可以做什么?
點(diǎn)擊查看答案
4.8.2 KBQA 常見面試篇
一、基于詞典和規(guī)則的方法
基于詞典和規(guī)則的方法 實(shí)現(xiàn) KBQA?
基于詞典和規(guī)則的方法 實(shí)現(xiàn) KBQA 流程?
...
點(diǎn)擊查看答案
4.8.3 Neo4j 常見面試篇
一、Neo4J 介紹與安裝
1.1 引言
1.2 Neo4J 怎么下載?
1.3 Neo4J 怎么安裝?
1.4 Neo4J Web 界面 介紹
1.5 Cypher查詢語(yǔ)言是什么?
二、Neo4J 增刪查改篇
點(diǎn)擊查看答案
4.9 文本摘要 常見面試篇
一、動(dòng)機(jī)篇
1.1 什么是文本摘要?
1.2 文本摘要技術(shù)有哪些類型?
二、抽取式摘要篇
...
4.10 文本糾錯(cuò)篇 常見面試篇
一、介紹篇
1.1 什么是文本糾錯(cuò)?
1.2 常見的文本錯(cuò)誤類型?
1.3 文本糾錯(cuò) 常用方法?
二、pipeline 方法 介紹篇
...
點(diǎn)擊查看答案
4.11 文本摘要 常見面試篇
一、動(dòng)機(jī)篇
1.1 什么是文本摘要?
1.2 文本摘要技術(shù)有哪些類型?
二、抽取式摘要篇
2.1 抽取式摘要是怎么做的?
2.1.1 句子重要性評(píng)估算法有哪些?
2.1.2 基于約束的摘要生成方法有哪些?
2.1.3 TextTeaser算法是怎么抽取摘要的?
2.1.4 TextRank算法是怎么抽取摘要的?
2.2 抽取式摘要的可讀性問題是什么?
三、壓縮式摘要篇
3.1 壓縮式摘要是怎么做的?
...
點(diǎn)擊查看答案
4.12 文本生成 常見面試篇
生成模型的解碼方法 常見面試篇
什么是生成模型?
介紹一下 基于搜索的解碼方法?
介紹一下 基于采樣的解碼方法?
點(diǎn)擊查看答案
三、深度學(xué)習(xí)算法篇 常見面試篇
CNN 常見面試篇
一、動(dòng)機(jī)篇
二、CNN 卷積層篇
2.1 卷積層的本質(zhì)是什么?
2.2 CNN 卷積層與全連接層的聯(lián)系?
2.3 channel的含義是什么?
三、CNN 池化層篇
3.1 池化層針對(duì)區(qū)域是什么?
3.2 池化層的種類有哪些?
3.3 池化層的作用是什么?
3.4 池化層 反向傳播 是什么樣的?
3.5 mean pooling 池化層 反向傳播 是什么樣的?
3.6 max pooling 池化層 反向傳播 是什么樣的?
四、CNN 整體篇
4.1 CNN 的流程是什么?
4.2 CNN 的特點(diǎn)是什么?
4.3 卷積神經(jīng)網(wǎng)絡(luò)為什么會(huì)具有平移不變性?
4.4 卷積神經(jīng)網(wǎng)絡(luò)中im2col是如何實(shí)現(xiàn)的?
4.5 CNN 的局限性是什么?
五、Iterated Dilated CNN 篇
5.1 什么是 Dilated CNN 空洞卷積?
5.2 什么是 Iterated Dilated CNN?
六、反卷積 篇
6.1 解釋反卷積的原理和用途?
點(diǎn)擊查看答案
RNN 常見面試篇
一、RNN 篇
1.2 為什么需要 RNN?
1.2 RNN 結(jié)構(gòu)是怎么樣的?
1.3 RNN 前向計(jì)算公式?
1.4 RNN 存在什么問題?
二、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network, LSTM) 篇
2.1 為什么 需要 LSTM?
2.2 LSTM 的結(jié)構(gòu)是怎么樣的?
2.3 LSTM 如何緩解 RNN 梯度消失和梯度爆炸問題?
2.3 LSTM 的流程是怎么樣的?
2.4 LSTM 中激活函數(shù)區(qū)別?
2.5 LSTM的復(fù)雜度?
2.6 LSTM 存在什么問題?
三、GRU (Gated Recurrent Unit)
3.1 為什么 需要 GRU?
3.2 GRU 的結(jié)構(gòu)是怎么樣的?
3.3 GRU 的前向計(jì)算?
3.4 GRU 與其他 RNN系列模型的區(qū)別?
四、RNN系列模型篇
4.1 RNN系列模型 有什么特點(diǎn)?
點(diǎn)擊查看答案
Attention 常見面試篇
一、seq2seq 篇
1.1 seq2seq (Encoder-Decoder)是什么?
1.2 seq2seq 中 的 Encoder 怎么樣?
1.3 seq2seq 中 的 Decoder 怎么樣?
1.4 在 數(shù)學(xué)角度上 的 seq2seq ,你知道么?
1.5 seq2seq 存在 什么 問題?
二、Attention 篇
2.1 什么是 Attention?
2.2 為什么引入 Attention機(jī)制?
2.3 Attention 有什么作用?
2.4 Attention 流程是怎么樣?
步驟一 執(zhí)行encoder (與 seq2seq 一致)
步驟二 計(jì)算對(duì)齊系數(shù) a
步驟三 計(jì)算上下文語(yǔ)義向量 C
步驟四 更新decoder狀態(tài)
步驟五 計(jì)算輸出預(yù)測(cè)詞
2.5 Attention 的應(yīng)用領(lǐng)域有哪些?
三、Attention 變體篇
3.1 Soft Attention 是什么?
3.2 Hard Attention 是什么?
3.3 Global Attention 是什么?
3.4 Local Attention 是什么?
3.5 self-attention 是什么?
點(diǎn)擊查看答案
生成對(duì)抗網(wǎng)絡(luò) GAN 常見面試篇
一、動(dòng)機(jī)
二、介紹篇
2.1 GAN 的基本思想
2.2 GAN 基本介紹
2.2.1 GAN 的基本結(jié)構(gòu)
2.2.2 GAN 的基本思想
三、訓(xùn)練篇
3.1 生成器介紹
3.2 判別器介紹
3.3 訓(xùn)練過(guò)程
3.4 訓(xùn)練所涉及相關(guān)理論基礎(chǔ)
四、總結(jié)
點(diǎn)擊查看答案
3.1 Transformer 常見面試篇
Transformer 常見面試篇
一、動(dòng)機(jī)篇
1.1 為什么要有 Transformer?
1.2 Transformer 作用是什么?
二、整體結(jié)構(gòu)篇
2.1 Transformer 整體結(jié)構(gòu)是怎么樣?
2.2 Transformer-encoder 結(jié)構(gòu)怎么樣?
2.3 Transformer-decoder 結(jié)構(gòu)怎么樣?
三、模塊篇
3.1 self-attention 模塊
3.1.1 傳統(tǒng) attention 是什么?
3.1.2 為什么 會(huì)有self-attention?
3.1.3 self-attention 的核心思想是什么?
3.1.4 self-attention 的目的是什么?
3.1.5 self-attention 的怎么計(jì)算的?
3.1.6 self-attention 為什么Q和K使用不同的權(quán)重矩陣生成,為何不能使用同一個(gè)值進(jìn)行自身的點(diǎn)乘?
3.1.7 為什么采用點(diǎn)積模型的 self-attention 而不采用加性模型?
3.1.8 Transformer 中在計(jì)算 self-attention 時(shí)為什么要除以 ?d?
3.1.9 self-attention 如何解決長(zhǎng)距離依賴問題?
3.1.10 self-attention 如何并行化?
3.2 multi-head attention 模塊
3.2.1 multi-head attention 的思路是什么樣?
3.2.2 multi-head attention 的步驟是什么樣?
3.2.3 Transformer為何使用多頭注意力機(jī)制?(為什么不使用一個(gè)頭)
3.2.4 為什么在進(jìn)行多頭注意力的時(shí)候需要對(duì)每個(gè)head進(jìn)行降維?
3.2.5 multi-head attention 代碼介紹
3.3 位置編碼(Position encoding)模塊
3.3.1 為什么要 加入 位置編碼(Position encoding) ?
3.3.2 位置編碼(Position encoding)的思路是什么 ?
3.3.3 位置編碼(Position encoding)的作用是什么 ?
3.3.4 位置編碼(Position encoding)的步驟是什么 ?
3.3.5 Position encoding為什么選擇相加而不是拼接呢?
3.3.6 Position encoding和 Position embedding的區(qū)別?
3.3.7 為何17年提出Transformer時(shí)采用的是 Position Encoder 而不是Position Embedding?而Bert卻采用的是 Position Embedding ?
3.3.8 位置編碼(Position encoding)的代碼介紹
3.4 殘差模塊模塊
3.4.1 為什么要 加入 殘差模塊?
3.5 Layer normalization 模塊
3.5.1 為什么要 加入 Layer normalization 模塊?
3.5.2 Layer normalization 模塊的是什么?
3.5.3 Batch normalization 和 Layer normalization 的區(qū)別?
3.5.4 Transformer 中為什么要舍棄 Batch normalization 改用 Layer normalization 呢?
3.5.5 Layer normalization 模塊代碼介紹
3.6 Mask 模塊
3.6.1 什么是 Mask?
3.6.2 Transformer 中用到 幾種 Mask?
3.6.3 能不能介紹一下 Transformer 中用到幾種 Mask?
點(diǎn)擊查看答案
【關(guān)于 Transformer 問題及改進(jìn)】那些你不知道的事
一、Transformer 問題篇
1.1 既然 Transformer 怎么牛逼,是否還存在一些問題?
二、每個(gè)問題的解決方法是什么?
2.1 問題一:Transformer 不能很好的處理超長(zhǎng)輸入問題
2.1.1 Transformer 固定了句子長(zhǎng)度?
2.1.2 Transformer 固定了句子長(zhǎng)度 的目的是什么?
2.1.3 Transformer 針對(duì)該問題的處理方法?
2.2 問題二:Transformer 方向信息以及相對(duì)位置 的 缺失 問題
2.3 問題三:缺少Recurrent Inductive Bias
問題四:?jiǎn)栴}四:Transformer是非圖靈完備的:非圖靈完備通俗的理解,就是無(wú)法解決所有的問題
問題五:transformer缺少conditional computation;
問題六:transformer 時(shí)間復(fù)雜度 和 空間復(fù)雜度 過(guò)大問題;
五、NLP 技巧面
5.1 少樣本問題面
5.1.1 數(shù)據(jù)增強(qiáng)(EDA) 面試篇
一、動(dòng)機(jī)篇
1.1 什么是 數(shù)據(jù)增強(qiáng)?
1.2 為什么需要 數(shù)據(jù)增強(qiáng)?
二、常見的數(shù)據(jù)增強(qiáng)方法篇
2.1 詞匯替換篇
2.1.1 什么是基于詞典的替換方法?
2.1.2 什么是基于詞向量的替換方法?
2.1.3 什么是基于 MLM 的替換方法?
2.1.4 什么是基于 TF-IDF 的詞替換?
2.2 詞匯插入篇
2.2.1 什么是隨機(jī)插入法?
2.3 詞匯交換篇
2.3.1 什么是隨機(jī)交換法?
2.4 詞匯刪除篇
2.4.1 什么是隨機(jī)刪除法?
2.5 回譯篇
2.5.1 什么是回譯法?
2.6 交叉增強(qiáng)篇
2.6.1 什么是 交叉增強(qiáng)篇
2.7 語(yǔ)法樹篇
2.7.1 什么是語(yǔ)法樹操作?
2.8 對(duì)抗增強(qiáng)篇
2.8.1 什么是對(duì)抗增強(qiáng)?
點(diǎn)擊查看答案
5.1.2 主動(dòng)學(xué)習(xí) 面試篇
一、動(dòng)機(jī)篇
1.1 主動(dòng)學(xué)習(xí)是什么?
1.2 為什么需要主動(dòng)學(xué)習(xí)?
二、主動(dòng)學(xué)習(xí)篇
2.1 主動(dòng)學(xué)習(xí)的思路是什么?
2.2 主動(dòng)學(xué)習(xí)方法 的價(jià)值點(diǎn)在哪里?
三、樣本選取策略篇
3.1 以未標(biāo)記樣本的獲取方式的差別進(jìn)行劃分
3.2 測(cè)試集內(nèi)選取“信息”量最大的數(shù)據(jù)標(biāo)記
3.2.1 測(cè)試集內(nèi)選取“信息”量最大的數(shù)據(jù)標(biāo)記
3.2.2 依賴不確定度的樣本選取策略(Uncertainty Sampling, US)
3.2.3 基于委員會(huì)查詢的方法(Query-By-Committee,QBC)
點(diǎn)擊查看答案
5.1.3 數(shù)據(jù)增強(qiáng) 之 對(duì)抗訓(xùn)練 面試篇
一、介紹篇
1.1 什么是 對(duì)抗訓(xùn)練 ?
1.2 為什么 對(duì)抗訓(xùn)練 能夠 提高模型效果?
1.3 對(duì)抗訓(xùn)練 有什么特點(diǎn)?
1.4 對(duì)抗訓(xùn)練 的作用?
二、概念篇
2.1 對(duì)抗訓(xùn)練的基本概念?
2.2 如何計(jì)算擾動(dòng)?
2.3 如何優(yōu)化?
三、實(shí)戰(zhàn)篇
3.1 NLP 中經(jīng)典對(duì)抗訓(xùn)練 之 Fast Gradient Method(FGM)
3.2 NLP 中經(jīng)典對(duì)抗訓(xùn)練 之 Projected Gradient Descent(PGD)
點(diǎn)擊查看答案
5.2 “臟數(shù)據(jù)”處理 面試篇
一、動(dòng)機(jī)
1.1 何為“臟數(shù)據(jù)”?
1.2 “臟數(shù)據(jù)” 會(huì)帶來(lái)什么后果?
二、“臟數(shù)據(jù)” 處理篇
2.1 “臟數(shù)據(jù)” 怎么處理呢?
2.2 置信學(xué)習(xí)方法篇
2.2.1 什么是 置信學(xué)習(xí)方法?
2.2.2 置信學(xué)習(xí)方法 優(yōu)點(diǎn)?
2.2.3 置信學(xué)習(xí)方法 怎么做?
2.2.4 置信學(xué)習(xí)方法 怎么用?有什么開源框架?
2.2.5 置信學(xué)習(xí)方法 的工作原理?
點(diǎn)擊查看答案
點(diǎn)擊原文查看【所有內(nèi)容】
