Duke重復(fù)數(shù)據(jù)刪除
Duke 是一個(gè)快速靈活的去除重復(fù)數(shù)據(jù)的引擎,基于 Lucene 開(kāi)發(fā),普通筆記本電腦可以在 11 分鐘內(nèi)處理完 100 萬(wàn)條記錄。
特征
- 高性能。
- 高度可配置。
- 支持CSV,JDBC,SPARQL,NTriples和JSON。
- 許多內(nèi)置比較器。
- 插入自己的數(shù)據(jù)源,比較器和清理器。
- 遺傳算法可自動(dòng)調(diào)整配置。
- 命令行客戶端入門(mén)。
- 用于嵌入任何類(lèi)型的應(yīng)用程序的API。
- 支持批處理和連續(xù)處理。
- 可以維護(hù)通過(guò)JNDI / JDBC找到的鏈接數(shù)據(jù)庫(kù)。
- 可以在多個(gè)線程中運(yùn)行。
下圖是 Duke 的架構(gòu):
評(píng)論
圖片
表情
