SegoGo 中文分詞
詞典用雙數(shù)組trie(Double-Array Trie)實(shí)現(xiàn), 分詞器算法為基于詞頻的最短路徑加動(dòng)態(tài)規(guī)劃。
支持普通和搜索引擎兩種分詞模式,支持用戶詞典、詞性標(biāo)注,可運(yùn)行JSON RPC服務(wù)。
分詞速度單線程9MB/s,goroutines并發(fā)42MB/s(8核Macbook Pro)。
示例代碼:
package main
import (
"fmt"
"github.com/huichen/sego"
)
func main() {
// 載入詞典
var segmenter sego.Segmenter
segmenter.LoadDictionary("github.com/huichen/sego/data/dictionary.txt")
// 分詞
text := []byte("中華人民共和國中央人民政府")
segments := segmenter.Segment(text)
// 處理分詞結(jié)果
// 支持普通模式和搜索模式兩種分詞,見代碼中SegmentsToString函數(shù)的注釋。
fmt.Println(sego.SegmentsToString(segments, false))
}評(píng)論
圖片
表情
