基于各種機器學習和深度學習的中文微博情感分析

來源:機器學習AI算法工程 本文約600字,建議閱讀5分鐘
本文中,我們介紹了中文微博情感分析的情況。
中文微博情感分類語料庫
"情感分析"是我本科的畢業(yè)設計,也是我入門并愛上NLP的項目hhh,當時網(wǎng)上相關(guān)語料庫的質(zhì)量都太低了,索性就自己寫了個爬蟲,一邊標注一邊爬,現(xiàn)在就把它發(fā)出來供大家交流。因為是自己的項目,所以標注是相當認真的,還請了朋友幫忙校驗,過濾掉了廣告/太短/太長/表意不明等語料,語料質(zhì)量是絕對可以保證的。 帶情感標注的微博語料數(shù)量: 10000(train.txt)+500(test.txt)
數(shù)據(jù)格式
文檔的每一行代表一條語料。 每條語料的第一個數(shù)據(jù)為微博對應的mid,是每條微博的唯一標簽,可以通過"https://m.weibo.cn/status/" + mid 訪問到該條微博的網(wǎng)頁(部分微博可能已被博主刪除)。 第二個數(shù)據(jù)為情感標簽,0表示負面,1表示正面。
項目說明
訓練集10000條語料,測試集500條語料。 使用樸素貝葉斯、SVM、XGBoost、LSTM和Bert,等多種模型搭建并訓練二分類模型。 前3個模型都采用端到端的訓練方法。 LSTM先預訓練得到Word2Vec詞向量,在訓練神經(jīng)網(wǎng)絡。 Bert使用的是哈工大的預訓練模型,用Bert的[CLS]位輸出在一個下游網(wǎng)絡上進行finetune。預訓練模型需要自行下載。
實驗結(jié)果

項目資料:
基于情感詞典、k-NN、Bayes、最大熵、SVM的情感分析
https://github.com/chaoming0625/SentimentPolarityAnalysis
風險事件文本分類(達觀杯Rank4)
https://github.com/DA-southampton/DaguanFengxian
編輯:王菁
校對:林亦霖
評論
圖片
表情
