HarvestText文本挖掘和預處理工具
HarvestText 是一個專注無(弱)監(jiān)督方法,能夠整合領域知識(如類型,別名)對特定領域文本進行簡單高效地處理和分析的庫。適用于許多文本預處理和初步探索性分析任務,在小說分析,網(wǎng)絡文本,專業(yè)文獻等領域都有潛在應用價值。
使用案例:
- 分析《三國演義》中的社交網(wǎng)絡(實體分詞,文本摘要,關系網(wǎng)絡等)
- 2018中超輿情展示系統(tǒng)(實體分詞,情感分析,新詞發(fā)現(xiàn)[輔助綽號識別]等) 相關文章:一文看評論里的中超風云
【注:本庫僅完成實體分詞和情感分析,可視化使用 matplotlib】
具體功能如下:
- 基本處理
- 精細分詞分句
- 可包含指定詞和類別的分詞。充分考慮省略號,雙引號等特殊標點的分句。
- 文本清洗
- 處理URL, email, 微博等文本中的特殊符號和格式,去除所有標點等
- 實體鏈接
- 把別名,縮寫與他們的標準名聯(lián)系起來。
- 命名實體識別
- 找到一句句子中的人名,地名,機構名等命名實體。
- 實體別名自動識別(更新!)
- 依存句法分析
- 分析語句中各個詞語(包括鏈接到的實體)的主謂賓語修飾等語法關系,
- 內(nèi)置資源
- 通用停用詞,通用情感詞,IT、財經(jīng)、飲食、法律等領域詞典??芍苯佑糜谝陨先蝿?。
- 信息檢索
- 統(tǒng)計特定實體出現(xiàn)的位置,次數(shù)等。
- 新詞發(fā)現(xiàn)
- 利用統(tǒng)計規(guī)律(或規(guī)則)發(fā)現(xiàn)語料中可能會被傳統(tǒng)分詞遺漏的特殊詞匯。也便于從文本中快速篩選出關鍵詞。
- 字符拼音糾錯(調(diào)整)
- 把語句中有可能是已知實體的錯誤拼寫(誤差一個字符或拼音)的詞語鏈接到對應實體。
- 自動分段
- 使用TextTiling算法,對沒有分段的文本自動分段,或者基于已有段落進一步組織/重新分段
- 存取消除
- 可以本地保存模型再讀取復用,也可以消除當前模型的記錄。
- 英語支持
- 本庫主要旨在支持對中文的數(shù)據(jù)挖掘,但是加入了包括情感分析在內(nèi)的少量英語支持
- 精細分詞分句
- 高層應用
- 情感分析
- 給出少量種子詞(通用的褒貶義詞語),得到語料中各個詞語和語段的褒貶度。
- 關系網(wǎng)絡
- 利用共現(xiàn)關系,獲得關鍵詞之間的網(wǎng)絡?;蛘咭砸粋€給定詞語為中心,探索與其相關的詞語網(wǎng)絡。
- 文本摘要
- 基于Textrank算法,得到一系列句子中的代表性句子。
- 關鍵詞抽取
- 基于Textrank, tfidf等算法,獲得一段文本中的關鍵詞
- 事實抽取
- 利用句法分析,提取可能表示事件的三元組。
- 簡易問答系統(tǒng)
- 從三元組中建立知識圖譜并應用于問答,可以定制一些問題模板。效果有待提升,僅作為示例。
- 情感分析
用法
首先安裝, 使用pip
pip install --upgrade harvesttext
或進入setup.py所在目錄,然后命令行:
python setup.py install
隨后在代碼中:
from harvesttext import HarvestText ht = HarvestText()
即可調(diào)用本庫的功能接口。
評論
圖片
表情
