Prose GoGo 語言文本處理庫
Prose 是一款用于Go 語言的文本處理庫(主要是英文),支持 okenization(分詞)、part-of-speech tagging(詞性標(biāo)注)、named-entity extraction(命名實(shí)體提取)等。
安裝
$ go get github.com/jdkato/prose/...
使用
Tokenizing
單詞、句子和 regexp tokenizer 可用。 每個(gè)分詞器實(shí)現(xiàn)相同的接口,這樣可以輕松地在庫的其他部分中自定義詞語切分。
package main
import (
"fmt"
"github.com/jdkato/prose/tokenize"
)
func main() {
text := "They'll save and invest more."
tokenizer := tokenize.NewTreebankWordTokenizer()
for _, word := range tokenizer.Tokenize(text) {
// [They 'll save and invest more .]
fmt.Println(word)
}
}評(píng)論
圖片
表情
