国产区激情,欧美一级爱,亚洲99热,精品中国V日韩,久久无码高清视频,91吴梦梦无码一区二区在线看 ,2019天天干天天色,免费一级中文字幕

HarvestText 是一個專注無（弱）監(jiān)督方法，能夠整合領域知識（如類型，別名）對特定領域文本進行簡單高效地處理和分析的庫。適用于許多文本預處理和初步探索性分析任務，在小說分析，網(wǎng)絡文本，專業(yè)文獻等領域都有潛在應用價值。

使用案例:

分析《三國演義》中的社交網(wǎng)絡（實體分詞，文本摘要，關系網(wǎng)絡等）
2018中超輿情展示系統(tǒng)（實體分詞，情感分析，新詞發(fā)現(xiàn)[輔助綽號識別]等）相關文章：一文看評論里的中超風云

【注：本庫僅完成實體分詞和情感分析，可視化使用 matplotlib】

具體功能如下：

基本處理
- 精細分詞分句
  - 可包含指定詞和類別的分詞。充分考慮省略號，雙引號等特殊標點的分句。
- 文本清洗
  - 處理URL, email, 微博等文本中的特殊符號和格式，去除所有標點等
- 實體鏈接
  - 把別名，縮寫與他們的標準名聯(lián)系起來。
- 命名實體識別
  - 找到一句句子中的人名，地名，機構名等命名實體。
- 實體別名自動識別(更新！)
  - 從大量文本中自動識別出實體及其可能別名，直接用于實體鏈接。例子見這里
- 依存句法分析
  - 分析語句中各個詞語（包括鏈接到的實體）的主謂賓語修飾等語法關系，
- 內(nèi)置資源
  - 通用停用詞，通用情感詞，IT、財經(jīng)、飲食、法律等領域詞典?？芍苯佑糜谝陨先蝿?。
- 信息檢索
  - 統(tǒng)計特定實體出現(xiàn)的位置，次數(shù)等。
- 新詞發(fā)現(xiàn)
  - 利用統(tǒng)計規(guī)律（或規(guī)則）發(fā)現(xiàn)語料中可能會被傳統(tǒng)分詞遺漏的特殊詞匯。也便于從文本中快速篩選出關鍵詞。
- 字符拼音糾錯(調(diào)整)
  - 把語句中有可能是已知實體的錯誤拼寫（誤差一個字符或拼音）的詞語鏈接到對應實體。
- 自動分段
  - 使用TextTiling算法，對沒有分段的文本自動分段，或者基于已有段落進一步組織/重新分段
- 存取消除
  - 可以本地保存模型再讀取復用，也可以消除當前模型的記錄。
- 英語支持
  - 本庫主要旨在支持對中文的數(shù)據(jù)挖掘，但是加入了包括情感分析在內(nèi)的少量英語支持
高層應用
- 情感分析
  - 給出少量種子詞（通用的褒貶義詞語），得到語料中各個詞語和語段的褒貶度。
- 關系網(wǎng)絡
  - 利用共現(xiàn)關系，獲得關鍵詞之間的網(wǎng)絡?；蛘咭砸粋€給定詞語為中心，探索與其相關的詞語網(wǎng)絡。
- 文本摘要
  - 基于Textrank算法，得到一系列句子中的代表性句子。
- 關鍵詞抽取
  - 基于Textrank, tfidf等算法，獲得一段文本中的關鍵詞
- 事實抽取
  - 利用句法分析，提取可能表示事件的三元組。
- 簡易問答系統(tǒng)
  - 從三元組中建立知識圖譜并應用于問答，可以定制一些問題模板。效果有待提升，僅作為示例。

用法

首先安裝，使用pip

pip install --upgrade harvesttext

或進入setup.py所在目錄，然后命令行:

python setup.py install

隨后在代碼中：

from harvesttext import HarvestText
ht = HarvestText()

即可調(diào)用本庫的功能接口。

HarvestText文本挖掘和預處理工具

具體功能如下：

用法