<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

cwsharp-gogo中文分詞包

聯(lián)合創(chuàng)作 · 2023-09-29 05:14

cwsharp-go

cwsharp-go是golang的文本分詞包，支持中文、英文以及中英混合詞組，除此之外，提供自定義分詞的擴展（比如日文、韓文或其它語種）。

.NET版：CWSharp-C#

安裝&測試

$ go get github.com/zhengchun/cwsharp-go
$ cd main
$ go run main.go Hello,World!你好，世界!

分詞算法

cwsharp-go支持多種分詞算法，你可以根據(jù)需求選擇適合自己的或者自定義新的分詞算法。

mmseg-tokenizer

標準的基于詞典的分詞方法。

tips: 建議使用單一實例，避免每次分詞都需重新加載字典

tokenizer, err := cwsharp.New("../data/cwsharp.dawg") //加載字典
iter := tokenizer.Tokenize(strings.NewReader("Hello,world!你好,世界!"))
for tok, ok := iter(); ok; tok, ok = iter() {
    fmt.Printf("%s/%s ", tok.Text, tok.Type)
}
>> hello/w ,/p world/w !/p 你好/w ,/p 世界/w !/p

bigram-tokenizer

二元分詞方法，無需字典，速度快，支持完整的英文和數(shù)字切分。

iter := cwsharp.BigramTokenize(strings.NewReader("世界人民大團結(jié)萬歲!"))
for token, ok := iter(); ok; token, ok = iter() {
    fmt.Printf("%s/%s ", token.Text, token.Type)
}
>> 世界/w 界人/w 人民/w 民大/w 大團/w 團結(jié)/w 結(jié)萬/w 萬歲/w !/p

whitespace-tokenizer

標準的英文分詞，無需字典，適合切分英文的內(nèi)容，中文會被當做獨立的字符輸出。

iter := cwsharp.WhitespaceTokenize(strings.NewReader("Hello,world!你好!"))
for token, ok := iter(); ok; token, ok = iter() {
    fmt.Printf("%s/%s ", token.Text, token.Type)
}
>> hello/w ,/p world/w !/p 你/w 好/w !/p

TokenizerFunc

TokenizerFunc是自定義分詞的擴展接口幫助類，允許你自定義新的分詞。

type TokenizerFunc func(io.Reader) Iterator

瀏覽 11

點贊

收藏

分享

舉報

評論

圖片

表情

cwsharp-gogo中文分詞包

cwsharp-gocwsharp-go是golang的文本分詞包，支持中文、英文以及中英混合詞組，除此之外，提供自定義分詞的擴展（比如日文、韓文或其它語種）。.NET版：CWSharp-C#安裝&a

phpSplitPHP 中文分詞包

phpSplit 是一個基于php開發(fā)的中文分詞庫。居于Unicode編碼詞典的php分詞器只適用于

phpSplitPHP 中文分詞包

phpSplit是一個基于php開發(fā)的中文分詞庫。居于Unicode編碼詞典的php分詞器只適用于php5，必要函數(shù)iconv本程序是使用RMM逆向匹配算法進行分詞的，詞庫需要特別編譯，本類里提供了M

scsegPython中文分詞

scseg中文分詞，是基于mmseg的簡單分詞組件Feature支持pinyin分詞支持用戶自定義詞

genius中文分詞

GeniusGenius是一個開源的python中文分詞組件，采用CRF(ConditionalRandomField)條件隨機場算法。Feature支持python2.x、python3.x以及py

Ansj中文分詞

Ansj中文分詞這是一個ictclas的java實現(xiàn).基本上重寫了所有的數(shù)據(jù)結(jié)構(gòu)和算法.詞典是用的開

Ansj中文分詞

Ansj中文分詞這是一個ictclas的java實現(xiàn).基本上重寫了所有的數(shù)據(jù)結(jié)構(gòu)和算法.詞典是用的開源版的ictclas所提供的.并且進行了部分的人工優(yōu)化內(nèi)存中中文分詞每秒鐘大約100萬字(速度上已經(jīng)

ansj_segAnsj中文分詞

Ansj中文分詞使用幫助開發(fā)文檔：3.x版本及之前，5.x版本及之后摘要這是一個基于n-Gram+CRF+HMM的中文分詞的java實現(xiàn)。分詞速度達到每秒鐘大約200萬字左右（macair下測試），準

SegoGo 中文分詞

詞典用雙數(shù)組trie（Double-Array Trie）實現(xiàn)，?分詞器算法為基于詞頻的最短路徑加動

SegoGo 中文分詞

詞典用雙數(shù)組trie（Double-ArrayTrie）實現(xiàn)，?分詞器算法為基于詞頻的最短路徑加動態(tài)規(guī)劃。支持普通和搜索引擎兩種分詞模式，支持用戶詞典、詞性標注，可運行JSONRPC服務。分詞速度單線

點贊

收藏

分享

舉報

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

se久久久 | 人人爱,人人操 | 黄色靠逼| 日韩黄色一级AA片 | 人妻久操 |