<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          HarvestText文本挖掘和預處理工具

          聯(lián)合創(chuàng)作 · 2023-09-25 21:39

          HarvestText 是一個專注無(弱)監(jiān)督方法,能夠整合領域知識(如類型,別名)對特定領域文本進行簡單高效地處理和分析的庫。適用于許多文本預處理和初步探索性分析任務,在小說分析,網(wǎng)絡文本,專業(yè)文獻等領域都有潛在應用價值。

          使用案例:

          【注:本庫僅完成實體分詞和情感分析,可視化使用 matplotlib】

          具體功能如下:

          • 基本處理
            • 精細分詞分句
              • 可包含指定詞和類別的分詞。充分考慮省略號,雙引號等特殊標點的分句。
            • 文本清洗
              • 處理URL, email, 微博等文本中的特殊符號和格式,去除所有標點等
            • 實體鏈接
              • 把別名,縮寫與他們的標準名聯(lián)系起來。
            • 命名實體識別
              • 找到一句句子中的人名,地名,機構名等命名實體。
            • 實體別名自動識別(更新!)
              • 從大量文本中自動識別出實體及其可能別名,直接用于實體鏈接。例子見這里
            • 依存句法分析
              • 分析語句中各個詞語(包括鏈接到的實體)的主謂賓語修飾等語法關系,
            • 內(nèi)置資源
              • 通用停用詞,通用情感詞,IT、財經(jīng)、飲食、法律等領域詞典??芍苯佑糜谝陨先蝿?。
            • 信息檢索
              • 統(tǒng)計特定實體出現(xiàn)的位置,次數(shù)等。
            • 新詞發(fā)現(xiàn)
              • 利用統(tǒng)計規(guī)律(或規(guī)則)發(fā)現(xiàn)語料中可能會被傳統(tǒng)分詞遺漏的特殊詞匯。也便于從文本中快速篩選出關鍵詞。
            • 字符拼音糾錯(調(diào)整)
              • 把語句中有可能是已知實體的錯誤拼寫(誤差一個字符或拼音)的詞語鏈接到對應實體。
            • 自動分段
              • 使用TextTiling算法,對沒有分段的文本自動分段,或者基于已有段落進一步組織/重新分段
            • 存取消除
              • 可以本地保存模型再讀取復用,也可以消除當前模型的記錄。
            • 英語支持
              • 本庫主要旨在支持對中文的數(shù)據(jù)挖掘,但是加入了包括情感分析在內(nèi)的少量英語支持
          • 高層應用
            • 情感分析
              • 給出少量種子詞(通用的褒貶義詞語),得到語料中各個詞語和語段的褒貶度。
            • 關系網(wǎng)絡
              • 利用共現(xiàn)關系,獲得關鍵詞之間的網(wǎng)絡?;蛘咭砸粋€給定詞語為中心,探索與其相關的詞語網(wǎng)絡。
            • 文本摘要
              • 基于Textrank算法,得到一系列句子中的代表性句子。
            • 關鍵詞抽取
              • 基于Textrank, tfidf等算法,獲得一段文本中的關鍵詞
            • 事實抽取
              • 利用句法分析,提取可能表示事件的三元組。
            • 簡易問答系統(tǒng)
              • 從三元組中建立知識圖譜并應用于問答,可以定制一些問題模板。效果有待提升,僅作為示例。

          用法

          首先安裝, 使用pip

          pip install --upgrade harvesttext

          或進入setup.py所在目錄,然后命令行:

          python setup.py install

          隨后在代碼中:

          from harvesttext import HarvestText
          ht = HarvestText()

          即可調(diào)用本庫的功能接口。

          瀏覽 25
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  A A A 免费毛片 | 香蕉伊人在线观看 | 可以免费看黄的网站 | 青青草男人天堂 | 激情无码内射 |