simhash-javasimhash 算法的 java 實現(xiàn)
simhash-java
Java實現(xiàn)simhash算法的簡單實現(xiàn)。
特征:
- 計算字符串的simhash
- 通過構(gòu)建智能索引來計算所有鏈之間的相似度,因此我們可以處理大數(shù)據(jù)。
如何使用:
-
使用inputfile和outputfile運(yùn)行Main。
-
輸入文件的格式(請參閱src / test_in):每行doc帶有utf8字符集。
-
輸出文件的格式(請參見src / test_out):
-
開始//開始標(biāo)志
-
第一行// doc
-
sencode lien // // doc1 \ tdist dist是doc和doc1之間的漢明距離
-
結(jié)束//結(jié)束標(biāo)志
未來:
- 將項目構(gòu)建到可運(yùn)行的jar中。
- 在大數(shù)據(jù)下提高性能。
注意:
- 在運(yùn)行Main.java之前,您應(yīng)該選擇一個更好的分析器而不是BinaryWordSeg!
評論
圖片
表情
