文本相似度,文本匹配模型歸納(附代碼)

向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)??????
人工智能大數(shù)據(jù)與深度學(xué)習(xí) ?公眾號(hào):datayx
本文將會(huì)整合近幾年來比較熱門的一些文本匹配模型,并以QA_corpus為測試基準(zhǔn),分別進(jìn)行測試,代碼均采用tensorflow進(jìn)行實(shí)現(xiàn),每個(gè)模型均會(huì)有理論講解與代碼實(shí)現(xiàn)。
項(xiàng)目代碼與論文講解都在持續(xù)更新中
DSSM詳解
https://blog.csdn.net/u012526436/article/details/90212287
ESIM詳解
https://blog.csdn.net/u012526436/article/details/90380840
ABCNN詳解
https://blog.csdn.net/u012526436/article/details/90179481
BiMPM詳解
https://blog.csdn.net/u012526436/article/details/88663975
DIIN詳解
https://blog.csdn.net/u012526436/article/details/90710925
DRCN詳解
https://blog.csdn.net/u012526436/article/details/90757018

數(shù)據(jù)集為QA_corpus,訓(xùn)練數(shù)據(jù)10w條,驗(yàn)證集和測試集均為1w條
其中對(duì)應(yīng)模型文件夾下的args.py文件是超參數(shù)
訓(xùn)練:?python train.py
測試:?python test.py
詞向量:不同的模型輸入不一樣,有的模型的輸入只有簡單的字向量,有的模型換成了字向量+詞向量,甚至還有靜態(tài)詞向量(訓(xùn)練過程中不進(jìn)行更新)和 動(dòng)態(tài)詞向量(訓(xùn)練過程中更新詞向量),所有不同形式的輸入均以封裝好,調(diào)用方法如下
靜態(tài)詞向量,請(qǐng)執(zhí)行?python word2vec_gensim.py,該版本是采用gensim來訓(xùn)練詞向量
動(dòng)態(tài)詞向量,請(qǐng)執(zhí)行?python word2vec.py,該版本是采用tensorflow來訓(xùn)練詞向量,訓(xùn)練完成后會(huì)保存embedding矩陣、詞典和詞向量在二維矩陣的相對(duì)位置的圖片, 如果非win10環(huán)境,由于字體的原因圖片可能保存失敗
測試集結(jié)果對(duì)比:

閱讀過本文的人還看了以下文章:
TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《基于深度學(xué)習(xí)的自然語言處理》中/英PDF
Deep Learning 中文版初版-周志華團(tuán)隊(duì)
【全套視頻課】最全的目標(biāo)檢測算法系列講解,通俗易懂!
《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf
《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼
python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼
《深度學(xué)習(xí)之pytorch》pdf+附書源碼
PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)
李沐大神開源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼
將機(jī)器學(xué)習(xí)模型部署為REST API
FashionAI服裝屬性標(biāo)簽圖像識(shí)別Top1-5方案分享
重要開源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識(shí)別
同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過不了?
前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測
【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類
VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識(shí)別分類工程項(xiàng)目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級(jí)聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識(shí)別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程
不斷更新資源
深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python
?搜索公眾號(hào)添加:?datayx??
機(jī)大數(shù)據(jù)技術(shù)與機(jī)器學(xué)習(xí)工程
?搜索公眾號(hào)添加:?datanlp
長按圖片,識(shí)別二維碼
