基于深度學(xué)習(xí)的中文文本分類綜述
共 799字,需瀏覽 2分鐘
·
2024-05-16 17:30
來源:專知 本文為論文介紹,建議閱讀5分鐘
本文將簡要介紹傳統(tǒng)機器學(xué)習(xí)的文本分類方法, 詳細闡述使用深度學(xué)習(xí)的文本分類方法。
大數(shù)據(jù)時代,隨著社交媒體的不斷普及,在網(wǎng)絡(luò)以及生活中,各類文本數(shù)據(jù)日益增長,采用文本分類技術(shù)對文本數(shù)據(jù)進行分析和管理具有重要的意義。文本分類是自然語言處理領(lǐng)域中的一個基礎(chǔ)研究內(nèi)容,在給定標(biāo)準(zhǔn)下,根據(jù)內(nèi)容對文本進行分類,文本分類的場景應(yīng)用十分廣泛,如情感分析、話題分類和關(guān)系分類等。深度學(xué)習(xí)是機器學(xué)習(xí)中一種基于對數(shù)據(jù)進行表征學(xué)習(xí)的方法,在文本數(shù)據(jù)處理中表現(xiàn)出了較好的分類效果。中文文本與英文文本在形、音、象上都有著區(qū)別,著眼于中文文本分類的特別之處,對用于中文文本分類的深度學(xué)習(xí)方法進行分析與闡述,最終梳理出常用于中文文本分類的數(shù)據(jù)集。
文本分類是指為文本指定預(yù)定義標(biāo)簽的過程, 是 許 多 自 然 語 言 處 理 NLP(NaturalLanguage Processing)應(yīng)用程序中的一項重要任務(wù),具有眾 多的應(yīng)用場景,例如情感分析[1]如圖1所示;問答 系統(tǒng)[2,3]的基本流程如圖2所示;對話行為分類[4]、 話題分類[5]等。 近年來,國內(nèi)外的文本分類研究者在傳統(tǒng)機器 學(xué)習(xí)和深度學(xué)習(xí)2個方向?qū)ξ谋痉诸悊栴}做了許 多探索和研究。本文將簡要介紹傳統(tǒng)機器學(xué)習(xí)的 文本分類方法,詳細闡述使用深度學(xué)習(xí)的文本分類方法。
