kcws基于深度學習的分詞系統(tǒng)
這是一個基于深度學習的分詞系統(tǒng)和語料項目。
背景
97.5%準確率的深度學習中文分詞(字嵌入+Bi-LSTM+CRF)
構建
安裝好bazel代碼構建工具,clone下來tensorflow項目代碼,配置好(./configure)
clone 本項目地址到tensorflow同級目錄,切換到本項目代碼目錄,運行./configure
編譯后臺服務
bazel build //kcws/cc:seg_backend_api
訓練
1. 關注“待字閨中”公眾號 回復 kcws 獲取語料下載地址
2. 解壓語料到一個目錄
3. 切換到代碼目錄,運行:
pyton kcws/train/process_anno_file <語料目錄> chars_for_w2v.txt 使用word2vec 訓練 chars_for_w2v (注意-binary 0),得到字嵌入結果vec.txt bazel build kcws/train:generate_training ./bazel-bin/kcws/train/generate_training vec.txt <語料目錄> all.txt python kcws/train/filter_sentence.py all.txt (得到train.txt , test.txt)
4. 安裝好tensorflow,切換到kcws代碼目錄,運行:
python kcws/train/train_cws_lstm.py --word2vec_path vec.txt --train_data_path <絕對路徑到train.txt> --test_data_path test.txt --max_sentence_len 80 --learning_rate 0.001
demo
評論
圖片
表情
