NLP 百問百答
作者:楊夕、芙蕖、李玲、陳海順、twilight、LeoLRH、JimmyDU、艾春輝、張永泰、金金金
面筋地址:https://github.com/km1994/NLP-Interview-Notes
個人筆記:https://github.com/km1994/nlp_paper_study
介紹
本項目是作者們根據(jù)個人面試和經(jīng)驗總結(jié)出的自然語言處理(NLP)面試準備的學(xué)習(xí)筆記與資料,該資料目前包含 自然語言處理各領(lǐng)域的 面試題積累。
目錄架構(gòu)
一【關(guān)于 基礎(chǔ)算法篇】那些你不知道的事
【關(guān)于 過擬合和欠擬合】那些你不知道的事
一、過擬合和欠擬合 是什么?
二、過擬合/高方差(overfiting / high variance)篇
2.1 過擬合是什么及檢驗方法?
2.2 導(dǎo)致過擬合的原因是什么?
2.3 過擬合的解決方法是什么?
三、欠擬合/高偏差(underfiting / high bias)篇
3.1 欠擬合是什么及檢驗方法?
3.2 導(dǎo)致欠擬合的原因是什么?
3.3 過擬合的解決方法是什么?
【關(guān)于 BatchNorm vs LayerNorm】那些你不知道的事
一、動機篇
1.1 獨立同分布(independent and identically distributed)與白化
1.2 ( Internal Covariate Shift,ICS)
1.3 ICS問題帶來的后果是什么?
二、Normalization 篇
2.1 Normalization 的通用框架與基本思想
三、Batch Normalization 篇
3.1 Batch Normalization(縱向規(guī)范化)是什么?
3.2 Batch Normalization(縱向規(guī)范化)存在什么問題?
3.3 Batch Normalization(縱向規(guī)范化)適用的場景是什么?
3.4 BatchNorm 存在什么問題?
四、Layer Normalization(橫向規(guī)范化) 篇
4.1 Layer Normalization(橫向規(guī)范化)是什么?
4.2 Layer Normalization(橫向規(guī)范化)有什么用?
五、BN vs LN 篇
六、主流 Normalization 方法為什么有效?
【關(guān)于 激活函數(shù)】那些你不知道的事
一、動機篇
1.1 為什么要有激活函數(shù)?
二、激活函數(shù)介紹篇
2.1 sigmoid 函數(shù)篇
2.1.1 什么是 sigmoid 函數(shù)?
2.1.2 為什么選 sigmoid 函數(shù) 作為激活函數(shù)?
2.1.3 sigmoid 函數(shù) 有什么缺點?
2.2 tanh 函數(shù)篇
2.2.1 什么是 tanh 函數(shù)?
2.2.2 為什么選 tanh 函數(shù) 作為激活函數(shù)?
2.2.3 tanh 函數(shù) 有什么缺點?
2.3 relu 函數(shù)篇
2.3.1 什么是 relu 函數(shù)?
2.3.2 為什么選 relu 函數(shù) 作為激活函數(shù)?
2.3.3 relu 函數(shù) 有什么缺點?
三、激活函數(shù)選擇篇
【關(guān)于 正則化】那些你不知道的事
一、L0,L1,L2正則化 篇
1.1 正則化 是什么?
1.2 什么是 L0 正則化 ?
1.3 什么是 L1 (稀疏規(guī)則算子 Lasso regularization)正則化 ?
1.4 什么是 L2 正則化(嶺回歸 Ridge Regression 或者 權(quán)重衰減 Weight Decay)正則化 ?
二、對比篇
2.1 什么是結(jié)構(gòu)風(fēng)險最小化?
2.2 從結(jié)構(gòu)風(fēng)險最小化的角度理解L1和L2正則化
2.3 L1 vs L2
三、dropout 篇
3.1 什么是 dropout?
3.2 dropout 在訓(xùn)練和測試過程中如何操作?
3.3 dropout 如何防止過擬合?
【關(guān)于 優(yōu)化算法及函數(shù)】那些你不知道的事
一、動機篇
1.1 為什么需要 優(yōu)化函數(shù)?
1.2 優(yōu)化函數(shù)的基本框架是什么?
二、優(yōu)化函數(shù)介紹篇
2.1 梯度下降法是什么?
2.2 隨機梯度下降法是什么?
2.3 Momentum 是什么?
2.4 SGD with Nesterov Acceleration 是什么?
2.5 Adagrad 是什么?
2.6 RMSProp/AdaDelta 是什么?
2.7 Adam 是什么?
2.8 Nadam 是什么?
三、優(yōu)化函數(shù)學(xué)霸筆記篇
【關(guān)于 歸一化】那些你不知道的事
一、動機篇
1.1 為什么要歸一化?
二、介紹篇
2.1 歸一化 有 哪些方法?
2.2 歸一化 各方法 特點?
2.3 歸一化 的 意義?
三、應(yīng)用篇
3.1 哪些機器學(xué)習(xí)算法 需要做 歸一化?
3.2 哪些機器學(xué)習(xí)算法 不需要做 歸一化?
【關(guān)于 判別式(discriminative)模型 vs. 生成式(generative)模型】 那些你不知道的事
一、判別式模型篇
1.1 什么是判別式模型?
1.2 判別式模型是思路是什么?
1.3 判別式模型的優(yōu)點是什么?
二、生成式模型篇
2.1 什么是生成式模型?
2.2 生成式模型是思路是什么?
2.3 生成式模型的優(yōu)點是什么?
2.4 生成式模型的缺點是什么?
二【關(guān)于 機器學(xué)習(xí)算法篇】那些你不知道的事
【關(guān)于 邏輯回歸】那些你不知道的事
一、介紹篇
1.1什么是邏輯回歸
1.2邏輯回歸的優(yōu)勢
二、推導(dǎo)篇
2.1邏輯回歸推導(dǎo)
2.2求解優(yōu)化
【關(guān)于 支持向量機】 那些你不知道的事
一、原理篇
1.1 什么是SVM?
1.2 SVM怎么發(fā)展的?
1.3 SVM存在什么問題?
二、算法篇
2.1 什么是塊算法?
2.2 什么是分解算法?
2.3 什么是序列最小優(yōu)化算法?
2.4 什么是增量算法?
三、其他SVM篇
3.1 什么是最小二次支持向量機?
3.2 什么是模糊支持向量機?
3.3 什么是粒度支持向量機?
3.4 什么是多類訓(xùn)練算法?
3.5 什么是孿生支持向量機?
3.6 什么是排序支持向量機?
四、應(yīng)用篇
4.1 模式識別
4.2 網(wǎng)頁分類
4.3 系統(tǒng)建模與系統(tǒng)辨識
4.4 其他
五、對比篇
六、拓展篇
【關(guān)于 集成學(xué)習(xí)】那些你不知道的事
一、動機
二、集成學(xué)習(xí)介紹篇
2.1 介紹篇
2.1.1 集成學(xué)習(xí)的基本思想是什么?
2.1.2 集成學(xué)習(xí)為什么有效?
三、 Boosting 篇
3.1 用一句話概括 Boosting?
3.2 Boosting 的特點是什么?
3.3 Boosting 的基本思想是什么?
3.4 Boosting 的特點是什么?
3.5 GBDT 是什么?
3.6 Xgboost 是什么?
四、Bagging 篇
4.1 用一句話概括 Bagging?
4.2 Bagging 的特點是什么?
4.3 Bagging 的基本思想是什么?
4.4 Bagging 的基分類器如何選擇?
4.5 Bagging 的優(yōu)點 是什么?
4.6 Bagging 的特點是什么?
4.7 隨機森林 是什么?
五、 Stacking 篇
5.1 用一句話概括 Stacking ?
5.2 Stacking 的特點是什么?
5.3 Stacking 的基本思路是什么?
六、常見問題篇
6.1 為什么使用決策樹作為基學(xué)習(xí)器?
6.2 為什么不穩(wěn)定的學(xué)習(xí)器更適合作為基學(xué)習(xí)器?
6.3 哪些模型適合作為基學(xué)習(xí)器?
6.4 Bagging 方法中能使用線性分類器作為基學(xué)習(xí)器嗎?Boosting 呢?
6.5 Boosting/Bagging 與 偏差/方差 的關(guān)系?
七、對比篇
7.1 LR vs GBDT?
7.1.1 從機器學(xué)習(xí)三要素的角度
7.1.1.1 從模型角度
7.1.1.2 從策略角度
7.1.1.2.1 從 Loss 角度
7.1.1.2.2 從 特征空間 角度
7.1.1.2.3 從 正則 角度
7.1.1.3 從算法角度
7.1.2 從特征的角度
7.1.2.1 特征組合
7.1.2.2 特特征的稀疏性
7.1.3 數(shù)據(jù)假設(shè)不同
7.1.3.1 LR
7.1.3.2 GBDT
參考
三、【關(guān)于 深度學(xué)習(xí)算法篇】那些你不知道的事
【關(guān)于 CNN 】那些你不知道的事
一、動機篇
二、CNN 卷積層篇
2.1 卷積層的本質(zhì)是什么?
2.2 CNN 卷積層與全連接層的聯(lián)系?
2.3 channel的含義是什么?
三、CNN 池化層篇
3.1 池化層針對區(qū)域是什么?
3.2 池化層的種類有哪些?
3.3 池化層的作用是什么?
3.4 池化層 反向傳播 是什么樣的?
3.5 mean pooling 池化層 反向傳播 是什么樣的?
3.6 max pooling 池化層 反向傳播 是什么樣的?
四、CNN 整體篇
4.1 CNN 的流程是什么?
4.2 CNN 的特點是什么?
4.3 卷積神經(jīng)網(wǎng)絡(luò)為什么會具有平移不變性?
4.4 卷積神經(jīng)網(wǎng)絡(luò)中im2col是如何實現(xiàn)的?
4.5 CNN 的局限性是什么?
五、Iterated Dilated CNN 篇
5.1 什么是 Dilated CNN 空洞卷積?
5.2 什么是 Iterated Dilated CNN?
六、反卷積 篇
6.1 解釋反卷積的原理和用途?
【關(guān)于 Attention 】那些你不知道的事
一、seq2seq 篇
1.1 seq2seq (Encoder-Decoder)是什么?
1.2 seq2seq 中 的 Encoder 怎么樣?
1.3 seq2seq 中 的 Decoder 怎么樣?
1.4 在 數(shù)學(xué)角度上 的 seq2seq ,你知道么?
1.5 seq2seq 存在 什么 問題?
二、Attention 篇
2.1 什么是 Attention?
2.2 為什么引入 Attention機制?
2.3 Attention 有什么作用?
2.4 Attention 流程是怎么樣?
步驟一 執(zhí)行encoder (與 seq2seq 一致)
步驟二 計算對齊系數(shù) a
步驟三 計算上下文語義向量 C
步驟四 更新decoder狀態(tài)
步驟五 計算輸出預(yù)測詞
2.5 Attention 的應(yīng)用領(lǐng)域有哪些?
三、Attention 變體篇
3.1 Soft Attention 是什么?
3.2 Hard Attention 是什么?
3.3 Global Attention 是什么?
3.4 Local Attention 是什么?
3.5 self-attention 是什么?
【關(guān)于 Transformer面試題】那些你不知道的事
一、Transformer 問題篇
二、每個問題的解決方法是什么?
1.1 既然 Transformer 怎么牛逼,是否還存在一些問題?
2.1.1 Transformer 固定了句子長度?
2.1.2 Transformer 固定了句子長度 的目的是什么?
2.1.3 Transformer 針對該問題的處理方法?
2.1 問題一:Transformer 不能很好的處理超長輸入問題
2.2 問題二:Transformer 方向信息以及相對位置 的 缺失 問題
2.3 問題三:缺少Recurrent Inductive Bias
問題四:問題四:Transformer是非圖靈完備的:非圖靈完備通俗的理解,就是無法解決所有的問題
問題五:transformer缺少conditional computation;
問題六:transformer 時間復(fù)雜度 和 空間復(fù)雜度 過大問題;
一、動機篇
二、整體結(jié)構(gòu)篇
三、模塊篇
1.1 為什么要有 Transformer?
1.2 Transformer 作用是什么?
2.1 Transformer 整體結(jié)構(gòu)是怎么樣?
2.2 Transformer-encoder 結(jié)構(gòu)怎么樣?
2.3 Transformer-decoder 結(jié)構(gòu)怎么樣?
3.6.1 什么是 Mask?
3.6.2 Transformer 中用到 幾種 Mask?
3.6.3 能不能介紹一下 Transformer 中用到幾種 Mask?
3.5.1 為什么要 加入 Layer normalization 模塊?
3.5.2 Layer normalization 模塊的是什么?
3.5.3 Batch normalization 和 Layer normalization 的區(qū)別?
3.5.4 Transformer 中為什么要舍棄 Batch normalization 改用 Layer normalization 呢?
3.5.5 Layer normalization 模塊代碼介紹
3.4.1 為什么要 加入 殘差模塊?
3.3.1 為什么要 加入 位置編碼(Position encoding) ?
3.3.2 位置編碼(Position encoding)的思路是什么 ?
3.3.3 位置編碼(Position encoding)的作用是什么 ?
3.3.4 位置編碼(Position encoding)的步驟是什么 ?
3.3.5 Position encoding為什么選擇相加而不是拼接呢?
3.3.6 Position encoding和 Position embedding的區(qū)別?
3.3.7 為何17年提出Transformer時采用的是 Position Encoder 而不是Position Embedding?而Bert卻采用的是 Position Embedding ?
3.3.8 位置編碼(Position encoding)的代碼介紹
3.2.1 multi-head attention 的思路是什么樣?
3.2.2 multi-head attention 的步驟是什么樣?
3.2.3 Transformer為何使用多頭注意力機制?(為什么不使用一個頭)
3.2.4 為什么在進行多頭注意力的時候需要對每個head進行降維?
3.2.5 multi-head attention 代碼介紹
3.1.1 傳統(tǒng) attention 是什么?
3.1.2 為什么 會有self-attention?
3.1.3 self-attention 的核心思想是什么?
3.1.4 self-attention 的目的是什么?
3.1.5 self-attention 的怎么計算的?
3.1.6 self-attention 為什么Q和K使用不同的權(quán)重矩陣生成,為何不能使用同一個值進行自身的點乘?
3.1.7 為什么采用點積模型的 self-attention 而不采用加性模型?
3.1.8 Transformer 中在計算 self-attention 時為什么要除以 ?
3.1.9 self-attention 如何解決長距離依賴問題?
3.1.10 self-attention 如何并行化?
3.1 self-attention 模塊
3.2 multi-head attention 模塊
3.3 位置編碼(Position encoding)模塊
3.4 殘差模塊模塊
3.5 Layer normalization 模塊
3.6 Mask 模塊
【關(guān)于 Transformer】那些你不知道的事
【關(guān)于 Transformer 問題及改進】那些你不知道的事
【關(guān)于 生成對抗網(wǎng)絡(luò) GAN 】 那些你不知道的事
3.1 生成器介紹
3.2 判別器介紹
3.3 訓(xùn)練過程
3.4 訓(xùn)練所涉及相關(guān)理論基礎(chǔ)
2.1 GAN 的基本思想
2.2 GAN 基本介紹
2.2.1 GAN 的基本結(jié)構(gòu)
2.2.2 GAN 的基本思想
一、動機
二、介紹篇
三、訓(xùn)練篇
四、總結(jié)
四【關(guān)于 NLP 學(xué)習(xí)算法】那些你不知道的事
4.1 【關(guān)于 信息抽取】那些你不知道的事
4.1.1 【關(guān)于 命名實體識別】那些你不知道的事
【關(guān)于 HMM->MEMM->CRF】那些你不知道的事
6.1 CRF模型 和 HMM和MEMM模型 區(qū)別?
5.1 CRF 動機篇
5.2 CRF 介紹篇
5.3 CRF 優(yōu)缺點篇
5.4 CRF 復(fù)現(xiàn)?
5.1.1 HMM 和 MEMM 存在什么問題?
5.2.1 什么是 CRF?
5.2.2 CRF 的 主要思想是什么?
5.2.3 CRF 的定義是什么?
5.2.4 CRF 的 流程是什么?
5.3.1 CRF 的 優(yōu)點在哪里?
5.3.2 CRF 的 缺點在哪里?
4.1 最大熵馬爾科夫模型(MEMM)動機篇
4.2 最大熵馬爾科夫模型(MEMM)介紹篇
4.3 最大熵馬爾科夫模型(MEMM)問題篇
4.1.1 HMM 存在 什么問題?
4.2.1 最大熵馬爾科夫模型(MEMM) 是什么樣?
4.2.2 最大熵馬爾科夫模型(MEMM) 如何解決 HMM 問題?
3.1 隱馬爾科夫算法 介紹篇
3.2 隱馬爾科夫算法 模型計算過程篇
3.3 隱馬爾科夫算法 問題篇
3.1.1 隱馬爾科夫算法 是什么?
3.1.2 隱馬爾科夫算法 中 兩個序列 是什么?
3.1.3 隱馬爾科夫算法 中 三個矩陣 是什么?
3.1.4 隱馬爾科夫算法 中 兩個假設(shè) 是什么?
3.1.5 隱馬爾科夫算法 中 工作流程 是什么?
3.2.1 隱馬爾科夫算法 學(xué)習(xí)訓(xùn)練過程 是什么樣的?
3.2.2 隱馬爾科夫算法 序列標(biāo)注(解碼)過程 是什么樣的?
3.2.3 隱馬爾科夫算法 序列概率過程 是什么樣的?
2.1 什么是 馬爾可夫過程?
2.2 馬爾可夫過程 的核心思想 是什么?
1.1 什么是概率圖模型?
1.2 什么是 隨機場?
一、基礎(chǔ)信息 介紹篇
二、馬爾可夫過程 介紹篇
三、隱馬爾科夫算法 篇
四、最大熵馬爾科夫模型(MEMM)篇
五、條件隨機場(CRF)篇
六、對比篇
【關(guān)于 DNN-CRF】那些你不知道的事
4.1 CNN-CRF vs BiLSTM-CRF vs IDCNN-CRF?
4.2 為什么 DNN 后面要加 CRF?
4.3 CRF in TensorFlow V.S. CRF in discrete toolkit?
3.1 基于深度學(xué)習(xí)的命名實體識別方法 相比于 基于機器學(xué)習(xí)的命名實體識別方法的優(yōu)點?
3.2 基于深度學(xué)習(xí)的命名實體識別方法 的 結(jié)構(gòu)是怎么樣?
3.3 分布式輸入層 是什么,有哪些方法?
3.4 文本編碼器篇
3.5 標(biāo)簽解碼器篇
3.4.2.1 什么是 Dilated CNN?
3.4.2.2 為什么會有 Dilated CNN?
3.4.2.3 Dilated CNN 的優(yōu)點?
3.4.2.4 IDCNN-CRF 介紹
3.4.1.1 什么是 BiLSTM-CRF?
3.4.1.2 為什么要用 BiLSTM?
3.4.1 BiLSTM-CRF 篇
3.4.2 IDCNN-CRF 篇
3.5.1 標(biāo)簽解碼器是什么?
3.5.2 MLP+softmax層 介紹?
3.5.3 條件隨機場CRF層 介紹?
3.5.4 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN層 介紹?
3.5.3 指針網(wǎng)路層 介紹?
2.1 基于規(guī)則的命名實體識別方法是什么?
2.2 基于無監(jiān)督學(xué)習(xí)的命名實體識別方法是什么?
2.3 基于特征的監(jiān)督學(xué)習(xí)的命名實體識別方法是什么?
1.1 命名實體識別 評價指標(biāo) 是什么?
一、基本信息
二、傳統(tǒng)的命名實體識別方法
三、基于深度學(xué)習(xí)的命名實體識別方法
四、對比 篇
【關(guān)于 中文領(lǐng)域 NER】 那些你不知道的事
3.1 什么是 詞匯/實體類型信息增強?
3.2 為什么說 「詞匯/實體類型信息增強」 方法對于中文 NER 任務(wù)有效呢?
3.3 詞匯/實體類型信息增強 方法有哪些?
3.4 什么是 LEX-BERT ?
2.1 什么是 詞匯增強?
2.2 為什么說 「詞匯增強」 方法對于中文 NER 任務(wù)有效呢?
2.3 詞匯增強 方法有哪些?
2.4 Dynamic Architecture
2.5 Adaptive Embedding 范式
2.4.1 什么是 Dynamic Architecture?
2.4.2 常用方法有哪些?
2.4.3 什么是 Lattice LSTM ,存在什么問題?
2.4.4 什么是 FLAT ,存在什么問題?
2.5.1 什么是 Adaptive Embedding 范式?
2.5.2 常用方法有哪些?
2.5.3 什么是 WC-LSTM ,存在什么問題?
1.1 中文命名實體識別 與 英文命名實體識別的區(qū)別?
一、動機篇
二、詞匯增強篇
三、詞匯/實體類型信息增強篇
【關(guān)于 命名實體識別 trick 】那些你不知道的事
7.1 什么是實體嵌套?
7.2 與 傳統(tǒng)命名實體識別任務(wù)的區(qū)別
7.3 解決方法:
7.3.1 方法一:序列標(biāo)注
7.3.2 方法二:指針標(biāo)注
7.3.3 方法三:多頭標(biāo)注
7.3.4 方法四:片段排列
trick 1:領(lǐng)域詞典匹配
trick 2:規(guī)則抽取
trick 3:詞向量選取:詞向量 or 字向量?
trick 4:特征提取器 如何選擇?
trick 5:專有名稱 怎么 處理?【注:這一點來自于 命名實體識別的幾點心得 】
trick 6:標(biāo)注數(shù)據(jù) 不足怎么處理?【這個問題可以說是現(xiàn)在很多小廠最頭疼的問題】
trick 7:嵌套命名實體識別怎么處理 【注:參考 資料3】
trick 8:為什么說 「詞匯增強」 方法對于中文 NER 任務(wù)有效?
trick 9:NER實體span過長怎么辦?
trick 10: NER 標(biāo)注數(shù)據(jù)噪聲問題?
trick 11:給定兩個命名實體識別任務(wù),一個任務(wù)數(shù)據(jù)量足夠,另外一個數(shù)據(jù)量很少,可以怎么做?
trick 12:NER 標(biāo)注數(shù)據(jù)不均衡問題?
4.1.2 【關(guān)于 關(guān)系抽取】那些你不知道的事
【關(guān)于 關(guān)系抽取】那些你不知道的事
3.1 文檔級關(guān)系抽取與經(jīng)典關(guān)系抽取有何區(qū)別?
3.2 文檔級別關(guān)系抽取中面臨什么樣的問題?
3.3 文檔級關(guān)系抽取的方法有哪些?
3.4 文檔級關(guān)系抽取常見數(shù)據(jù)集有哪些以及其評估方法?
3.3.1 基于BERT-like的文檔關(guān)系抽取是怎么做的?
3.3.2 基于graph的文檔關(guān)系抽取是怎么做的?
2.1 模板匹配方法是指什么?有什么優(yōu)缺點?
2.2 遠監(jiān)督關(guān)系抽取是指什么?它有什么優(yōu)缺點?
2.3 什么是關(guān)系重疊?復(fù)雜關(guān)系問題?
2.4 聯(lián)合抽取是什么?難點在哪里?
2.5 聯(lián)合抽取總體上有哪些方法?各有哪些缺點?
2.6 介紹基于共享參數(shù)的聯(lián)合抽取方法?
2.7 介紹基于聯(lián)合解碼的聯(lián)合抽取方法?
2.8 實體關(guān)系抽取的前沿技術(shù)和挑戰(zhàn)有哪些?如何解決低資源和復(fù)雜樣本下的實體關(guān)系抽取?
依存結(jié)構(gòu)樹:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures
指針網(wǎng)絡(luò),Going out on a limb: Joint Extraction of Entity Mentions and Relations without Dependency Trees
Copy機制+seq2seq:Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism19]
多頭選擇機制+sigmoid:Joint entity recognition and relation extraction as a multi-head selection problem
SPO問題+指針網(wǎng)絡(luò),Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy
多輪對話+強化學(xué)習(xí) :Entity-Relation Extraction as Multi-Turn Question Answering
輸入端的片段排列:Span-Level Model for Relation Extraction
輸出端的片段排列:SpERT:Span-based Joint Entity and Relation Extraction with Transformer Pre-training
Joint extraction of entities and relations based on a novel tagging scheme
Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling
Joint extraction of entities and relations based on a novel tagging scheme
1.1 什么是關(guān)系抽取?
1.2 關(guān)系抽取技術(shù)有哪些類型?
1.3 常見的關(guān)系抽取流程是怎么做的?
一、動機篇
二、經(jīng)典關(guān)系抽取篇
三、文檔級關(guān)系抽取篇
4.1.3 【關(guān)于 事件抽取】那些你不知道的事
【關(guān)于 事件抽取】那些你不知道的事
7.1 事件抽取論文綜述
7.2 事件抽取常見問題
5.1 事件抽取和命名實體識別(即實體抽取)有什么異同?
5.2 事件抽取和關(guān)系抽取有什么異同?
5.3 什么是事理圖譜?有哪些事件關(guān)系類型?事理圖譜怎么構(gòu)建?主要技術(shù)領(lǐng)域及當(dāng)前發(fā)展熱點是什么?
4.1 事件抽取中常見的英文數(shù)據(jù)集有哪些?
4.2 事件抽取中常見的中文數(shù)據(jù)集有哪些?
4.3 事件抽取的評價指標(biāo)是什么?怎么計算的?
3.1 模式匹配方法怎么用在事件抽取中?
3.2 統(tǒng)計機器學(xué)習(xí)方法怎么用在事件抽取中?
3.3 深度學(xué)習(xí)方法怎么用在事件抽取中?
2.1 觸發(fā)詞檢測
2.2 類型識別
2.3 角色識別
2.4 論元檢測
2.1.1 什么是觸發(fā)詞檢測?
2.1.2 觸發(fā)詞檢測有哪些方法?
2.2.1 什么是類型識別?
2.2.2 類型識別有哪些方法?
2.3.1 什么是角色識別?
2.3.2 角色識別有哪些方法?
2.4.1 什么是論元檢測?
2.4.2 論元檢測有哪些方法?
1.1 什么是事件?
1.2 什么是事件抽取?
1.3 ACE測評中事件抽取涉及的幾個基本術(shù)語及任務(wù)是什么?
1.4 事件抽取怎么發(fā)展的?
1.5 事件抽取存在什么問題?
一、原理篇
二、基本任務(wù)篇
三、常見方法篇
四、數(shù)據(jù)集及評價指標(biāo)篇
五、對比篇
六、應(yīng)用篇
七、拓展篇
4.2 【關(guān)于 NLP 預(yù)訓(xùn)練算法】那些你不知道的事
【關(guān)于TF-idf】那些你不知道的事
2.1 什么是 TF-IDF?
2.2 TF-IDF 如何評估詞的重要程度?
2.3 TF-IDF 的思想是什么?
2.4 TF-IDF 的計算公式是什么?
2.5 TF-IDF 怎么描述?
2.6 TF-IDF 的優(yōu)點是什么?
2.7 TF-IDF 的缺點是什么?
2.8 TF-IDF 的應(yīng)用?
1.1 為什么有 one-hot ?
1.2 one-hot 是什么?
1.3 one-hot 有什么特點?
1.4 one-hot 存在哪些問題?
一、one-hot 篇
二、TF-IDF 篇
【關(guān)于word2vec】那些你不知道的事
4.1 word2vec訓(xùn)練trick,window設(shè)置多大?
4.1 word2vec訓(xùn)練trick,詞向量緯度,大與小有什么影響,還有其他參數(shù)?
3.1 word2vec和NNLM對比有什么區(qū)別?(word2vec vs NNLM)
3.2 word2vec和tf-idf 在相似度計算時的區(qū)別?
2.1 Word2vec 中 霍夫曼樹 是什么?
2.2 Word2vec 中 為什么要使用 霍夫曼樹?
2.3 Word2vec 中使用 霍夫曼樹 的好處?
2.4 為什么 Word2vec 中會用到 負采樣?
2.5 Word2vec 中會用到 負采樣 是什么樣?
2.6 Word2vec 中 負采樣 的采樣方式?
1.1 Wordvec 指什么?
1.2 Wordvec 中 CBOW 指什么?
1.3 Wordvec 中 Skip-gram 指什么?
1.4 CBOW vs Skip-gram 哪一個好?
一、Wordvec 介紹篇
二、Wordvec 優(yōu)化篇
三、Wordvec 對比篇
四、word2vec 實戰(zhàn)篇
【關(guān)于FastText】那些你不知道的事
3.1 為什么要用 層次化Softmax回歸(Hierarchical Softmax) ?
3.2 層次化Softmax回歸(Hierarchical Softmax) 的思想是什么?
3.3 層次化Softmax回歸(Hierarchical Softmax) 的步驟?
2.1 引言
2.2 fastText 是什么?
2.3 fastText 的結(jié)構(gòu)是什么樣?
2.4 為什么 fastText 要使用詞內(nèi)的n-gram信息(subword n-gram information)?
2.5 fastText 詞內(nèi)的n-gram信息(subword n-gram information) 介紹?
2.6 fastText 詞內(nèi)的n-gram信息 的 訓(xùn)練過程?
2.7 fastText 詞內(nèi)的n-gram信息 存在問題?
1.1 word-level Model 是什么?
1.2 word-level Model 存在什么問題?
1.3 Character-Level Model 是什么?
1.4 Character-Level Model 優(yōu)點?
1.5 Character-Level Model 存在問題?
1.6 Character-Level Model 問題的解決方法?
一、fastText 動機篇
二、 詞內(nèi)的n-gram信息(subword n-gram information) 介紹篇
三、 層次化Softmax回歸(Hierarchical Softmax) 介紹篇
四、fastText 存在問題?
【關(guān)于Elmo】那些你不知道的事
3.1 Elmo 存在的問題是什么?
2.1 Elmo 的 特點?
2.2 Elmo 的 思想是什么?
1.1 為什么會有 Elmo?
一、Elmo 動機篇
二、Elmo 介紹篇
三、Elmo 問題篇
【關(guān)于Bert】那些你不知道的事
一、動機
二、本文框架
三、前言
四、配置類 (Config)
五、特征實例類 (InputExample)
六、數(shù)據(jù)預(yù)處理類
七、基于 Bert 的 文本相似度 模型
八、Bert 相似度 模型 使用
九、總結(jié)
6.2.1 數(shù)據(jù)格式
6.2.2 數(shù)據(jù)預(yù)處理類
6.1 DataProcessor
6.2 文本相似度任務(wù) 文本預(yù)處理 (SimProcessor)
一、動機
二、本文框架
三、前言
四、配置類 (Config)
五、特征實例類 (InputExample)
六、Bert 句向量 類 (BertVector)
七、Bert 句向量 生成 實例
八、總結(jié)
一、動機
二、本文框架
三、前言
四、參數(shù)解析
五、輸入數(shù)據(jù)實例
六、特定任務(wù)數(shù)據(jù)處理
七、examples轉(zhuǎn)換成features (file_based_convert_examples_to_features)
八、創(chuàng)建模型
九、主入口
十、總結(jié)
6.1 數(shù)據(jù)處理 接口
6.2 推理任務(wù) 數(shù)據(jù)集處理
6.3 二分類任務(wù) 數(shù)據(jù)集處理
7.1 單例轉(zhuǎn)化
7.2 單例轉(zhuǎn)化
8.1 create_model 創(chuàng)建 分類模型
8.2 model_fn_builder
一、動機
二、本文框架
三、前言
四、原始語料 預(yù)處理模塊 (tokenization.py)
五、訓(xùn)練數(shù)據(jù)生成(create_pretraining_data.py)
六、預(yù)訓(xùn)練
七、測試
八、總結(jié)
4.1 動機
4.2 類別
4.3 BasicTokenizer
4.4 WordpieceTokenizer
4.5 FullTokenizer
5.7.1 介紹
5.7.2 代碼解析
5.6.1 作用
5.6.2 代碼講解
5.6.3 流程
5.1 作用
5.2 參數(shù)設(shè)置
5.3 main 入口
5.4 定義訓(xùn)練樣本類 (TrainingInstance)
5.5 構(gòu)建訓(xùn)練實例 (create_training_instances)
5.6 從 document 中抽取 實例(create_instances_from_document)
5.7 隨機MASK(create_masked_lm_predictions)
5.8 保存instance(write_instance_to_example_files)
6.1 Masked LM 訓(xùn)練 (get_masked_lm_output)
6.2 獲取 next sentence prediction(下一句預(yù)測) 部分的 loss 以及 log probs (get_next_sentence_output)
一、動機
二、本文框架
三、前言
四、配置類 BertConfig
五、獲取 詞向量 (Embedding_lookup)
六、詞向量 的后處理 (embedding_postprocessor)
七、創(chuàng)建 attention mask (attention_mask)
八、注意力層(attention layer)
九、Transformer
十、入口函數(shù) BertModel()
十一、總結(jié)
6.1 介紹
6.2 特點
6.3 代碼實現(xiàn)
7.1 作用
7.2 代碼
8.2.1 思路
8.2.2 步驟
8.1.1 動機
8.1.2 傳統(tǒng) Attention
8.1.3 核心思想
8.1.4 目的
8.1.5 公式
8.1.6 步驟
8.1 自注意力層(self-attention)
8.2 多頭自注意力 (Multi-Headed Attention)
8.3 代碼講解
8.4 代碼流程總結(jié)
8.5 對比總結(jié)
9.1 介紹
9.2 模型實現(xiàn)
9.3 思路分析
10.1 模型實現(xiàn)
10.2 流程介紹
一、動機篇
二、Bert 篇
三、 對比篇?
1.1 【演變史】one-hot 存在問題?
1.2【演變史】wordvec 存在問題?
1.3【演變史】fastText 存在問題?
1.4【演變史】elmo 存在問題?
2.5.1 【BERT】BERT的兩個預(yù)訓(xùn)練任務(wù)對應(yīng)的損失函數(shù)是什么(用公式形式展示)?
2.4.1 【BERT】為什么 Bert 需要 fine-turning?
2.4.2 【BERT】 Bert 如何 fine-turning?
2.3.1 【BERT】Bert 預(yù)訓(xùn)練任務(wù)介紹
2.3.2 【BERT】Bert 預(yù)訓(xùn)練任務(wù) 之 Masked LM 篇
2.3.3 【BERT】Bert 預(yù)訓(xùn)練任務(wù) 之 Next Sentence Prediction 篇
2.3.2.1 【BERT】 Bert 為什么需要預(yù)訓(xùn)練任務(wù) Masked LM ?
2.3.2.2 【BERT】 Bert 預(yù)訓(xùn)練任務(wù) Masked LM 怎么做?
2.3.2.3 【BERT】 Bert 預(yù)訓(xùn)練任務(wù) Masked LM 存在問題?
2.3.2.4 【BERT】 預(yù)訓(xùn)練和微調(diào)之間的不匹配的解決方法?
2.3.3.1 【BERT】Bert 為什么需要預(yù)訓(xùn)練任務(wù) Next Sentence Prediction ?
2.3.3.2 【BERT】 Bert 預(yù)訓(xùn)練任務(wù) Next Sentence Prediction 怎么做?
2.2.1 【BERT】Bert 輸入輸出表征長啥樣?
2.1.1【BERT】Bert 是什么?
2.1.2【BERT】Bert 三個關(guān)鍵點?
2.1 Bert 介紹篇
2.2 Bert 輸入輸出表征篇
2.3 【BERT】Bert 預(yù)訓(xùn)練篇
2.4 【BERT】 fine-turning 篇?
2.5 【BERT】 Bert 損失函數(shù)篇?
3.1 【對比】多義詞問題是什么?
3.2 【對比】word2vec 為什么解決不了多義詞問題?
3.3 【對比】GPT和BERT有什么不同?
3.4 【對比】為什么 elmo、GPT、Bert能夠解決多義詞問題?(以 elmo 為例)
【關(guān)于Bert】那些你不知道的事
【關(guān)于 Bert 源碼解析I 之 主體篇】那些你不知道的事
【關(guān)于 Bert 源碼解析II 之 預(yù)訓(xùn)練篇】那些你不知道的事
【關(guān)于 Bert 源碼解析III 之 微調(diào)篇】那些你不知道的事
【關(guān)于 Bert 源碼解析IV 之 句向量生成篇】那些你不知道的事
【關(guān)于 Bert 源碼解析V 之 文本相似度篇】那些你不知道的事
【關(guān)于 小 Bert 模型系列算法】那些你不知道的事
一、動機
二、論文思路
三、模型框架講解【以單句分類任務(wù)為例】
四、Data Augmentation for Distillation
五、單句分類任務(wù) 實驗結(jié)果分析
六、總結(jié)
3.2.1 TextRNN 模型構(gòu)建
3.2.2 TextCNN 模型構(gòu)建
3.1 Teacher 模型(Bert) 微調(diào)
3.2 Student 模型(TextCNN、TextRNN)構(gòu)建
3.3 Distillation Objective
5.1 數(shù)據(jù)集介紹
5.2 實驗結(jié)果分析
一、Bert 模型壓縮 動機篇
二、Bert 模型壓縮對比表
三、 Bert 模型壓縮方法介紹
四、模型壓縮存在問題?
3.4.1 什么是剪枝?
3.3.1 什么是量化?
3.3.2 Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT 【量化】
3.2.1 什么是蒸餾?
3.2.2 使用 模型蒸餾 的論文?
3.2.2.1 Extreme Language Model Compression withOptimal Subwords and Shared Projections 【蒸餾】
3.2.2.2 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 【蒸餾】
3.2.2.3 FastBERT: a Self-distilling BERT with Adaptive Inference Time 【蒸餾】
3.2.2.4 TinyBERT: Distilling BERT for Natural Language Understanding 【蒸餾】
3.1.1 什么是低秩因式分解?
3.1.2 什么是跨層參數(shù)共享?
3.1.3 ALBERT 所所用的方法?
3.1 Bert 模型壓縮方法 之 低秩因式分解&跨層參數(shù)共享
3.2 Bert 模型壓縮方法 之 蒸餾
3.3 Bert 模型壓縮方法 之 量化
3.4 Bert 模型壓縮方法 之 剪枝
【關(guān)于 小 Bert 模型系列算法】那些你不知道的事
【關(guān)于 Distilling Task-Specific Knowledge from BERT into Simple Neural Networks】那些你不知道的事
【關(guān)于 大 Bert 模型系列算法】 那些你不知道的事
2.1 認識 XLNet 么?能不能講一下?和 Bert 的 區(qū)別在哪里?
2.2 認識 RoBERTa 么?能不能講一下?和 Bert 的 區(qū)別在哪里?
2.3 認識 SpanBERT 么?能不能講一下?和 Bert 的 區(qū)別在哪里?
2.4 認識 MASS 么?能不能講一下?和 Bert 的 區(qū)別在哪里?
一、引言
二、Bert 變大篇
4.3 【關(guān)于 文本分類】那些你不知道的事
【關(guān)于 文本分類】那些你不知道的事
6.1 文本分類任務(wù)使用的評估算法和指標(biāo)有哪些?
6.2 簡單介紹混淆矩陣和kappa?
5.1 激活函數(shù)sigmoid篇
5.2 激活函數(shù)softmax篇
5.3 分類問題使用的損失函數(shù)還有有哪些?
5.1.1 二分類問題使用的激活函數(shù)sigmoid簡介?
5.1.2 Sigmod的缺點是什么?
5.2.1 softmax函數(shù)是什么?
5.2.2 softmax函數(shù)怎么求導(dǎo)?
4.1 fastText 篇
4.2 TextCNN 篇
4.3 DPCNN 篇
4.4 TextRCNN 篇
4.5 RNN+Attention 篇
4.6 GNN 圖神經(jīng)網(wǎng)絡(luò)篇
4.7 Transformer 篇
4.8 預(yù)訓(xùn)練模型 篇
4.1.1 fastText的分類過程?
4.1.2 fastText的優(yōu)點?
4.2.1 TextCNN進行文本分類的過程?
4.2.2 TextCNN可以調(diào)整哪些參數(shù)?
4.2.3 使用CNN作為文本分類器時,不同通道channels對應(yīng)著文本的什么信息?
4.2.4 TextCNN中卷積核的長與寬代表了什么?
4.2.5 在TextCNN中的pooling操作與一般CNN的pooling操作有何不同?
4.2.6 TextCNN的局限性?
4.3.1 如何解決長文本分類任務(wù)?
4.3.2 簡單介紹DPCNN模型相較于TextCNN的改進?
4.4.1 簡要介紹TextRCNN相較于TextCNN的改進?
4.5.1 RNN+Attention進行文本分類任務(wù)的思路,以及為什么要加Attention / 注意力機制如何應(yīng)用于文本分類領(lǐng)域?
4.6.1 GNN 圖神經(jīng)網(wǎng)絡(luò)如何應(yīng)用于文本分類領(lǐng)域?
4.7.1 基于Transformer的預(yù)訓(xùn)練模型如何應(yīng)用于文本分類領(lǐng)域?
4.8.1 你了解哪些預(yù)訓(xùn)練模型?它們的特點是什么?
3.1 (一個具體的)文本分類任務(wù)可以使用哪些特征?
3.2 (對于西文文本)使用單詞和使用字母作為特征相比,差異如何?
3.3 能不能簡單介紹下詞袋模型?
3.4 n-gram 篇
3.5 主題建模篇
3.6 文本相似度篇
3.4.1 什么是n元語法?為什么要用n-gram?
3.4.2 n-gram算法的局限性是什么?
3.5.1 介紹一下主題建模任務(wù)?
3.5.2 主題建模的常用方法
3.5.3 TF-IDF算法是做什么的?簡單介紹下TF-IDF算法
3.5.4 tf-idf高意味著什么?
3.5.5 tf-idf的不足之處
3.6.1 如何計算兩段文本之間的距離?
3.6.2 什么是jaccard距離?
3.6.3 Dice系數(shù)和Jaccard系數(shù)的區(qū)別?
3.6.4 同樣是編輯距離,萊文斯坦距離和漢明距離的區(qū)別在哪里?
3.6.5 寫一下計算編輯距離(萊溫斯坦距離)的編程題吧?
2.1 文本分類任務(wù)的數(shù)據(jù)預(yù)處理方法有哪些?
2.2 你使用過哪些分詞方法和工具?
2.3 中文文本分詞的方法?
2.4 基于字符串匹配的分詞方法的原理 是什么?
2.5 統(tǒng)計語言模型如何應(yīng)用于分詞?N-gram最大概率分詞?
2.6 基于序列標(biāo)注的分詞方法 是什么?
2.7 基于(Bi-)LSTM的詞性標(biāo)注 是什么?
2.8 詞干提取和詞形還原有什么區(qū)別?
1.1 分類任務(wù)有哪些類別?它們都有什么特征?
1.2 文本分類任務(wù)相較于其他領(lǐng)域的分類任務(wù)有何不同之處?
1.3 文本分類任務(wù)和文本領(lǐng)域的其他任務(wù)相比有何不同之處?
1.4 文本分類的過程?
一、 抽象命題
二、數(shù)據(jù)預(yù)處理
三、特征提取
四、模型篇
五、損失函數(shù)
六、模型評估和算法比較
【關(guān)于 文本分類 trick 】那些你不知道的事
6.1 算法策略構(gòu)建
6.2 特征挖掘策略
6.3 數(shù)據(jù)不均衡問題
6.4 預(yù)訓(xùn)練模型融合角度
6.5 災(zāi)難性遺忘問題
6.6 小模型大智慧
6.3.1 重采樣(re-sampling)
6.3.2 重加權(quán)(re-weighting)
6.3.3 數(shù)據(jù)增強
6.6.1 模型蒸餾
6.6.2 數(shù)據(jù)蒸餾
5.1 標(biāo)簽體系構(gòu)建
5.2 標(biāo)簽體系合理性評估
4.1 二分類問題
4.2 多標(biāo)簽分類
4.3 長文本問題
4.4 魯棒性問題
3.1 正則化
3.2 學(xué)習(xí)率
2.1 模型選擇
2.2 詞向量選擇
2.3 字 or 詞向量 預(yù)訓(xùn)練
1.1 vocab 構(gòu)建問題
1.2 模型輸入問題
1.3 噪聲數(shù)據(jù)處理問題
1.4 中文任務(wù)分詞問題
1.5 停用詞處理問題
一、數(shù)據(jù)預(yù)處理問題
二、模型篇
三、參數(shù)篇
四、任務(wù)篇
五、標(biāo)簽體系構(gòu)建
六、策略構(gòu)建
4.4 【關(guān)于 文本匹配】那些你不知道的事
【關(guān)于 文本匹配模型 ESIM 】那些你不知道的事
2.1 模型介紹
2.2 Input Encoding
2.3 Local Inference Modeling
2.4 Inference Composition
2.5 Prediction
2.6 模型訓(xùn)練
一、動機篇
二、ESIM 模型篇
【關(guān)于 語義相似度匹配任務(wù)中的 BERT】 那些你不知道的事
一、Sentence Pair Classification Task:使用 CLS]
二、cosine similairity
三、長短文本的區(qū)別
四、sentence/word embedding
五、siamese network 方式
4.5 【關(guān)于 問答系統(tǒng)】那些你不知道的事
4.5.1 【關(guān)于 FAQ 檢索式問答系統(tǒng)】 那些你不知道的事
【關(guān)于 FAQ 檢索式問答系統(tǒng)】 那些你不知道的事
5.1 FAQ 標(biāo)準問題庫答案如何優(yōu)化?
4.1 如何發(fā)現(xiàn) FAQ 中標(biāo)準問題?
4.2 FAQ 如何做拆分?
4.3 FAQ 如何做合并?
4.4 FAQ 標(biāo)準庫如何實時更新?
3.1 常用 方案有哪些?
3.2 為什么 QQ 匹配比較常用?
3.3 QQ 匹配一般處理流程是怎么樣?【假設(shè) 標(biāo)準問題庫 已處理好】
3.2.1 QQ 匹配的優(yōu)點有哪些?
3.2.2 QQ 匹配的語義空間是什么?
3.2.3 QQ 匹配的語料的穩(wěn)定性是什么?
3.2.4 QQ 匹配的業(yè)務(wù)回答與算法模型的解耦是什么?
3.2.5 QQ 匹配的新問題發(fā)現(xiàn)與去重是什么?
3.2.6 QQ 匹配的上線運行速度是什么?
2.1 FAQ 檢索式問答系統(tǒng) 是 什么?
2.2 query 匹配標(biāo)準 QA 的核心是什么?
1.1 問答系統(tǒng)的動機?
1.2 問答系統(tǒng) 是什么?
一、動機
二、FAQ 檢索式問答系統(tǒng)介紹篇
三、FAQ 檢索式問答系統(tǒng) 方案篇
四、FAQ 標(biāo)準問題庫構(gòu)建篇
五、FAQ 標(biāo)準問題庫答案優(yōu)化篇
參考
4.5.2 【關(guān)于 問答系統(tǒng)工具篇】 那些你不知道的事
【關(guān)于 Faiss 】 那些你不知道的事
4.1 sklearn cosine_similarity 和 Faiss 哪家強
3.1 Faiss 如何安裝?
3.2 Faiss 的索引Index有哪些?
3.3 Faiss 的索引Index都怎么用?
3.4 Faiss 然后使用 GPU?
3.3.1 數(shù)據(jù)預(yù)備
3.3.2 暴力美學(xué) IndexFlatL2
3.3.3 閃電俠 IndexIVFFlat
3.3.4 內(nèi)存管家 IndexIVFPQ
2.1 什么是 Faiss ?
2.2 Faiss 如何使用?
2.3 Faiss原理與核心算法
1.1 傳統(tǒng)的相似度算法所存在的問題?
一、動機篇
二、介紹篇
三、Faiss 實戰(zhàn)篇
四、 Faiss 對比篇
4.6 【關(guān)于 對話系統(tǒng)】那些你不知道的事
【關(guān)于 對話系統(tǒng)】那些你不知道的事
3.1 什么是任務(wù)型對話系統(tǒng)?
3.2 任務(wù)型對話系統(tǒng)的流程是怎么樣?
3.3 任務(wù)型對話系統(tǒng) 語言理解(SLU)篇
3.4 任務(wù)型對話系統(tǒng) DST(對話狀態(tài)跟蹤)篇
3.5 任務(wù)型對話系統(tǒng) DPO(對話策略學(xué)習(xí))篇
3.6 任務(wù)型對話系統(tǒng) NLG(自然語言生成)篇
3.3.1 什么是 語言理解(SLU)?
3.3.2 語言理解(SLU)的輸入輸出是什么?
3.3.3 語言理解(SLU)所使用的技術(shù)是什么?
3.4.1 什么是 DST(對話狀態(tài)跟蹤)?
3.4.2 DST(對話狀態(tài)跟蹤)的輸入輸出是什么?
3.4.3 DST(對話狀態(tài)跟蹤)存在問題和解決方法?
3.4.4 DST(對話狀態(tài)跟蹤)實現(xiàn)方式是什么?
3.5.1 DPO(對話策略學(xué)習(xí))是什么?
3.5.2 DPO(對話策略學(xué)習(xí))的輸入輸出是什么?
3.5.3 DPO(對話策略學(xué)習(xí))的實現(xiàn)方法是什么?
3.6.1 NLG(自然語言生成)是什么?
3.6.2 NLG(自然語言生成)的輸入輸出是什么?
3.6.3 NLG(自然語言生成)的實現(xiàn)方式?
2.1 為什么要用 多輪對話系統(tǒng)?
2.2 常見的多輪對話系統(tǒng)解決方案是什么?
1.1 對話系統(tǒng)有哪幾種?
1.2 這幾種對話系統(tǒng)的區(qū)別?
一、對話系統(tǒng) 介紹篇
二、多輪對話系統(tǒng) 介紹篇
三、任務(wù)型對話系統(tǒng) 介紹篇
【關(guān)于 RASA】那些你不知道的事
4.7 【關(guān)于 知識圖譜】那些你不知道的事
4.7.1 【關(guān)于 知識圖譜】 那些你不知道的事
【關(guān)于 知識圖譜】 那些你不知道的事
2.1 知識圖譜的數(shù)據(jù)來源于哪里?
2.2 信息抽取的難點在哪里?
2.3 構(gòu)建知識圖譜所涉及的技術(shù)?
2.4、知識圖譜的具體構(gòu)建技術(shù)是什么?
2.4.1 實體命名識別(Named Entity Recognition)
2.4.2 關(guān)系抽取(Relation Extraction)
2.4.3 實體統(tǒng)一(Entity Resolution)
2.4.4 指代消解(Disambiguation)
1.1 引言
1.2 什么是知識圖譜呢?
1.3 知識圖譜的類別有哪些?
1.4 知識圖譜的價值在哪呢?
1.2.1 什么是圖(Graph)呢?
1.2.2 什么是 Schema 呢?
一、知識圖譜簡介
二、怎么構(gòu)建知識圖譜呢?
三、知識圖譜怎么存儲?
四、知識圖譜可以做什么?
參考資料
4.7.2 【關(guān)于 KBQA】那些你不知道的事
【關(guān)于 KBQA】那些你不知道的事
2.1 介紹
2.2 流程
2.1.1 開源知識圖譜介紹
2.1.2 評測標(biāo)準
2.2.1. 分類單跳和多跳問句
2.2.2. 分類鏈式問句(二分類)
2.2.3. 主謂賓分類(三分類)
2.2.4. 實體提及(mention)識別
2.2.5. 關(guān)系分類 (語義相似度計算,二分類問題)
2.2.6. 實體鏈指 【實體消歧】
2.2.7. 候選查詢路徑生成及文本匹配
2.2.8. 實體橋接及答案檢索
1.1 介紹
1.2 流程
1.1.1 開源知識圖譜
1.1.2 代表項目
1.2.1. 句子輸入
1.2.2. 問句解析
1.2.3. 查詢語句生成
1.2.4. 查詢數(shù)據(jù)庫和結(jié)果生成
一、基于詞典和規(guī)則的方法
二、基于信息抽取的方法
4.7.3 【關(guān)于 Neo4j】那些你不知道的事
【關(guān)于 Neo4j】那些你不知道的事
3.1 neo4j模塊:執(zhí)行CQL ( cypher ) 語句是什么?
3.2 py2neo模塊是什么?
2.1 引言
2.2 Neo4j 怎么創(chuàng)建節(jié)點?
2.3 Neo4j 怎么創(chuàng)建關(guān)系?
2.4 Neo4j 怎么創(chuàng)建 出生地關(guān)系?
2.5 Neo4j 怎么查詢?
2.6 Neo4j 怎么刪除和修改?
1.1 引言
1.2 Neo4J 怎么下載?
1.3 Neo4J 怎么安裝?
1.4 Neo4J Web 界面 介紹
1.5 Cypher查詢語言是什么?
一、Neo4J 介紹與安裝
二、Neo4J 增刪查改篇
三、如何利用 Python 操作 Neo4j 圖數(shù)據(jù)庫?
四、數(shù)據(jù)導(dǎo)入 Neo4j 圖數(shù)據(jù)庫篇
參考資料
4.8 【關(guān)于 文本摘要】 那些你不知道的事
【關(guān)于 文本摘要】 那些你不知道的事
5.1 摘要質(zhì)量的評估方法有哪些類型?
5.2 什么是ROUGE?
5.3 幾種ROUGE指標(biāo)之間的區(qū)別是什么?
5.4 BLEU和ROUGE有什么不同?
4.1 生成式摘要是怎么做的?
4.2 生成式摘要存在哪些問題?
4.3 Pointer-generator network解決了什么問題?
3.1 壓縮式摘要是怎么做的?
2.1 抽取式摘要是怎么做的?
2.2 抽取式摘要的可讀性問題是什么?
2.1.1 句子重要性評估算法有哪些?
2.1.2 基于約束的摘要生成方法有哪些?
2.1.3 TextTeaser算法是怎么抽取摘要的?
2.1.4 TextRank算法是怎么抽取摘要的?
1.1 什么是文本摘要?
1.2 文本摘要技術(shù)有哪些類型?
一、動機篇
二、抽取式摘要篇
三、壓縮式摘要篇
四、生成式摘要篇
五、摘要質(zhì)量評估方法
4.9 【關(guān)于 知識表示學(xué)習(xí)】那些你不知道的事
【關(guān)于 知識表示學(xué)習(xí)】那些你不知道的事
2.1 Q:知識表示相對于one-hot表示的優(yōu)勢是什么?
2.2 Q:有哪些文本表示模型?它們各有什么優(yōu)缺點?
2.3 Q:word2vec與LDA模型之間的區(qū)別和聯(lián)系?
2.4 Q:介紹下詞向量空間中的平移不變現(xiàn)象?
2.5 Q:簡要介紹下TransE模型的思想及優(yōu)點?
2.6 Q:解釋一下為什么TransE模型用于復(fù)雜關(guān)系建模時的性能較差?
2.7 Q:簡述TransH、TransR和TransD模型的思想
2.8 Q:簡述deepwalk和node2vec模型的思想及其優(yōu)點
2.9 Q:簡述Line模型的思想
1.1 理論
1.2 研究現(xiàn)狀
1.1.1 知識表示學(xué)習(xí)的基本概念
1.1.2 知識表示的理論基礎(chǔ)
1.1.3 知識表示學(xué)習(xí)的典型應(yīng)用
1.1.4 知識表示學(xué)習(xí)的主要優(yōu)點
一. 理論及研究現(xiàn)狀
二. 常見面試題
參考文獻
五【關(guān)于 NLP 技巧】那些你不知道的事
5.1 【關(guān)于 少樣本問題】那些你不知道的事
【關(guān)于 EDA 】那些你不知道的事
2.1 詞匯替換篇
2.2 詞匯插入篇
2.3 詞匯交換篇
2.4 詞匯刪除篇
2.5 回譯篇
2.6 交叉增強篇
2.7 語法樹篇
2.8 對抗增強篇
2.1.1 什么是基于詞典的替換方法?
2.1.2 什么是基于詞向量的替換方法?
2.1.3 什么是基于 MLM 的替換方法?
2.1.4 什么是基于 TF-IDF 的詞替換?
2.2.1 什么是隨機插入法?
2.3.1 什么是隨機交換法?
2.4.1 什么是隨機刪除法?
2.5.1 什么是回譯法?
2.6.1 什么是 交叉增強篇
2.7.1 什么是語法樹操作?
2.8.1 什么是對抗增強?
1.1 什么是 數(shù)據(jù)增強?
1.2 為什么需要 數(shù)據(jù)增強?
一、動機篇
二、常見的數(shù)據(jù)增強方法篇
【關(guān)于 主動學(xué)習(xí) 】那些你不知道的事
3.1 以未標(biāo)記樣本的獲取方式的差別進行劃分
3.2 測試集內(nèi)選取“信息”量最大的數(shù)據(jù)標(biāo)記
3.2.1 測試集內(nèi)選取“信息”量最大的數(shù)據(jù)標(biāo)記
3.2.2 依賴不確定度的樣本選取策略(Uncertainty Sampling, US)
3.2.3 基于委員會查詢的方法(Query-By-Committee,QBC)
2.1 主動學(xué)習(xí)的思路是什么?
2.2 主動學(xué)習(xí)方法 的價值點在哪里?
1.1 主動學(xué)習(xí)是什么?
1.2 為什么需要主動學(xué)習(xí)?
一、動機篇
二、主動學(xué)習(xí)篇
三、樣本選取策略篇
【關(guān)于 數(shù)據(jù)增強 之 對抗訓(xùn)練】 那些你不知道的事
3.1 NLP 中經(jīng)典對抗訓(xùn)練 之 Fast Gradient Method(FGM)
3.2 NLP 中經(jīng)典對抗訓(xùn)練 之 Projected Gradient Descent(PGD)
2.1 對抗訓(xùn)練的基本概念?
2.2 如何計算擾動?
2.3 如何優(yōu)化?
1.1 什么是 對抗訓(xùn)練 ?
1.2 為什么 對抗訓(xùn)練 能夠 提高模型效果?
1.3 對抗訓(xùn)練 有什么特點?
1.4 對抗訓(xùn)練 的作用?
一、介紹篇
二、概念篇
三、實戰(zhàn)篇
5.2 【關(guān)于 臟數(shù)據(jù)】那些你不知道的事
【關(guān)于 “臟數(shù)據(jù)”處理】那些你不知道的事
2.1 “臟數(shù)據(jù)” 怎么處理呢?
2.2 置信學(xué)習(xí)方法篇
2.2.1 什么是 置信學(xué)習(xí)方法?
2.2.2 置信學(xué)習(xí)方法 優(yōu)點?
2.2.3 置信學(xué)習(xí)方法 怎么做?
2.2.4 置信學(xué)習(xí)方法 怎么用?有什么開源框架?
2.2.5 置信學(xué)習(xí)方法 的工作原理?
1.1 何為“臟數(shù)據(jù)”?
1.2 “臟數(shù)據(jù)” 會帶來什么后果?
一、動機
二、“臟數(shù)據(jù)” 處理篇
5.3 【關(guān)于 煉丹爐】那些你不知道的事
【關(guān)于 batch_size設(shè)置】那些你不知道的事
一、訓(xùn)練模型時,batch_size的設(shè)置,學(xué)習(xí)率的設(shè)置?
六【關(guān)于 Python 】那些你不知道的事
【關(guān)于 Python 】那些你不知道的事
7.1 什么是全局解釋器鎖?
7.2 GIL有什么作用?
7.3 GIL有什么影響?
7.4 如何避免GIL帶來的影響?
6.1 進程
6.2 線程
6.3 進程 vs 線程
6.4 協(xié)程
6.1.1 什么是進程?
6.1.2 進程間如何通信?
6.2.1 什么是線程?
6.2.2 線程間如何通信?
6.3.1 區(qū)別
6.3.2 應(yīng)用場景
6.4.1 什么是協(xié)程?
6.4.2 協(xié)程的優(yōu)點?
5.1 概念介紹
5.2 介紹
5.3 變量定義流程
5.3 賦值
5.4 淺拷貝
5.5 深度拷貝
5.6 核心:不可變對象類型 and 可變對象類型
5.6.1 不可變對象類型
5.6.2 可變對象類型
4.1 python 的sorted函數(shù)是什么?
4.2 python 的sorted函數(shù)舉例說明?
3.1 垃圾回收算法有哪些?
3.2 引用計數(shù)(主要)是什么?
3.3 標(biāo)記-清除是什么?
3.4 分代回收是什么?
2.1 裝飾器是什么?
2.2 裝飾器怎么用?
1.1 為什么會有 *args 和 **kwargs?
1.2 *args 和 **kwargs 的用途是什么?
1.3 *args 是什么?
1.4 **kwargs是什么?
1.5 *args 與 **kwargs 的區(qū)別是什么?
一、什么是*args 和 **kwargs?
二、什么是裝飾器?
三、Python垃圾回收(GC)
四、python的sorted函數(shù)對字典按key排序和按value排序
五、直接賦值、淺拷貝和深度拷貝
六、進程、線程、協(xié)程
七、全局解釋器鎖
七【關(guān)于 Tensorflow 】那些你不知道的事
【關(guān)于 Tensorflow 損失函數(shù)】 那些你不知道的事
(1)L1正則損失函數(shù)(即絕對值損失函數(shù))
(2)L2正則損失函數(shù)(即歐拉損失函數(shù))
(3)均方誤差(MSE, mean squared error)
(4)Pseudo-Huber 損失函數(shù)
(1)Hinge損失函數(shù)
(2)兩類交叉熵(Cross-entropy)損失函數(shù)
(3)Sigmoid交叉熵損失函數(shù)
(4)加權(quán)交叉熵損失函數(shù)
(5)Softmax交叉熵損失函數(shù)
(6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
一、動機
二、什么是損失函數(shù)?
三、目標(biāo)函數(shù)、損失函數(shù)、代價函數(shù)之間的關(guān)系與區(qū)別?
四、損失函數(shù)的類別
4.1 回歸模型的損失函數(shù)
4.2 分類模型的損失函數(shù)
五、總結(jié)

