各種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的中文微博情感分析

向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)??????
機(jī)器學(xué)習(xí)AI算法工程?? 公眾號(hào):datayx
"情感分析"是我本科的畢業(yè)設(shè)計(jì), 也是我入門并愛(ài)上NLP的項(xiàng)目hhh, 當(dāng)時(shí)網(wǎng)上相關(guān)語(yǔ)料庫(kù)的質(zhì)量都太低了, 索性就自己寫了個(gè)爬蟲(chóng), 一邊標(biāo)注一邊爬, 現(xiàn)在就把它發(fā)出來(lái)供大家交流。因?yàn)槭亲约旱捻?xiàng)目,所以標(biāo)注是相當(dāng)認(rèn)真的,還請(qǐng)了朋友幫忙校驗(yàn),過(guò)濾掉了廣告/太短/太長(zhǎng)/表意不明等語(yǔ)料,語(yǔ)料質(zhì)量是絕對(duì)可以保證的
帶情感標(biāo)注的微博語(yǔ)料數(shù)量: 10000(train.txt)+500(test.txt)
數(shù)據(jù)格式
文檔的每一行代表一條語(yǔ)料
每條語(yǔ)料的第一個(gè)數(shù)據(jù)為微博對(duì)應(yīng)的
mid,是每條微博的唯一標(biāo)簽,可以通過(guò)"https://m.weibo.cn/status/" + mid 訪問(wèn)到該條微博的網(wǎng)頁(yè)(部分微博可能已被博主刪除)第二個(gè)數(shù)據(jù)為情感標(biāo)簽,?
0表示負(fù)面,?1表示正面其余后面部分都是微博文本
微博表情都被轉(zhuǎn)義成[xx]的格式, 如:
[doge]
[允悲]
微博話題/地理定位/視頻、文本超鏈接等都轉(zhuǎn)義成了
{%xxxx%}的格式,使用正則可以很方便地將其清洗
項(xiàng)目說(shuō)明
訓(xùn)練集10000條語(yǔ)料, 測(cè)試集500條語(yǔ)料
使用樸素貝葉斯、SVM、XGBoost、LSTM和Bert, 等多種模型搭建并訓(xùn)練二分類模型
前3個(gè)模型都采用端到端的訓(xùn)練方法
LSTM先預(yù)訓(xùn)練得到Word2Vec詞向量, 在訓(xùn)練神經(jīng)網(wǎng)絡(luò)
Bert使用的是哈工大的預(yù)訓(xùn)練模型, 用Bert的[CLS]位輸出在一個(gè)下游網(wǎng)絡(luò)上進(jìn)行finetune。預(yù)訓(xùn)練模型需要自行下載:github下載地址:?https://github.com/ymcui/Chinese-BERT-wwm
baidu網(wǎng)盤:?https://pan.baidu.com/s/16z-ybrqT6wLdy_mLHtywSw?密碼: djkj
下載后將文件夾放在
./model文件夾下, 并將bert_config.json改名為config.json
全部項(xiàng)目代碼,微博語(yǔ)料數(shù)據(jù)集?獲取方式:
關(guān)注微信公眾號(hào) datanlp? 然后回復(fù)?情感分析? 即可獲取。
實(shí)驗(yàn)結(jié)果
各種分類器在測(cè)試集上的測(cè)試結(jié)果

閱讀過(guò)本文的人還看了以下文章:
TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)
基于40萬(wàn)表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測(cè)
《基于深度學(xué)習(xí)的自然語(yǔ)言處理》中/英PDF
Deep Learning 中文版初版-周志華團(tuán)隊(duì)
【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!
《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf
《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼
《深度學(xué)習(xí):基于Keras的Python實(shí)踐》PDF和代碼
python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目
2019最新《PyTorch自然語(yǔ)言處理》英、中文版PDF+源碼
《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼
《深度學(xué)習(xí)之pytorch》pdf+附書源碼
PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)
李沐大神開(kāi)源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼
將機(jī)器學(xué)習(xí)模型部署為REST API
FashionAI服裝屬性標(biāo)簽圖像識(shí)別Top1-5方案分享
重要開(kāi)源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識(shí)別
同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過(guò)不了?
前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)
【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類
VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識(shí)別分類工程項(xiàng)目
特征工程(二) :文本數(shù)據(jù)的展開(kāi)、過(guò)濾和分塊
如何利用全新的決策樹(shù)集成級(jí)聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
全球AI挑戰(zhàn)-場(chǎng)景分類的比賽源碼(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識(shí)別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程
不斷更新資源
深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python
?搜索公眾號(hào)添加:?datayx??
