CrunchETL 和特性抽取工具聯(lián)合創(chuàng)作 · 2023-10-01 23:29Crunch 是一個用 Go 語言開發(fā)的基于 Hadoop 的 ETL 和特性抽取工具,特點是速度快。 瀏覽 21點贊 評論 收藏 分享 手機(jī)掃一掃分享 編輯 分享 舉報 評論圖片表情視頻評價全部評論推薦 CrunchETL 和特性抽取工具Crunch是一個用Go語言開發(fā)的基于Hadoop的ETL和特性抽取工具,特點是速度快。Wandora數(shù)據(jù)抽取工具Wandora是一個通用的數(shù)據(jù)提取,管理和發(fā)布應(yīng)用程序,基于主題地圖和基于Java的。Wandora有一個圖形用戶界面,知識層次的介紹,幾個數(shù)據(jù)存儲選擇,豐富的數(shù)據(jù)提取,進(jìn)口和出口能力,以及一個嵌入式Krabber網(wǎng)頁抽取工具Krabber是kVitrail的網(wǎng)頁抽取工具。 Krabber的設(shè)計目標(biāo)是提供一個可以為Java應(yīng)Krabber網(wǎng)頁抽取工具Krabber是kVitrail的網(wǎng)頁抽取工具。Krabber的設(shè)計目標(biāo)是提供一個可以為Java應(yīng)用調(diào)用的、可以執(zhí)行網(wǎng)頁上的JavaScript代碼、并返回JavaScript代碼執(zhí)行后的網(wǎng)頁的HTMWandora數(shù)據(jù)抽取工具Wandora是一個通用的數(shù)據(jù)提取,管理和發(fā)布應(yīng)用程序,基于主題地圖和基于Java的。 WandorGoldDataSpider網(wǎng)頁數(shù)據(jù)抽取工具GoldDataSpider是用于抓取網(wǎng)頁和抽取數(shù)據(jù)的工具。其核心代碼是從金色數(shù)據(jù)抓取融合平臺分離而來。該項目提供抓取和抽取來自網(wǎng)頁數(shù)據(jù),不僅可以抽取網(wǎng)頁內(nèi)的內(nèi)容,還能抽取URL、HTTP報頭、CooGoldDataSpider網(wǎng)頁數(shù)據(jù)抽取工具GoldDataSpider 是用于抓取網(wǎng)頁和抽取數(shù)據(jù)的工具。其核心代碼是從金色數(shù)據(jù)抓取融合平臺分離Apache Tika內(nèi)容抽取工具集合Tika是一個內(nèi)容抽取的工具集合(atoolkitfortextextracting)。它集成了POI,Pdfbox并且為文本抽取工作提供了一個統(tǒng)一的界面。其次,Tika也提供了便利的擴(kuò)展API,用來Apache Tika內(nèi)容抽取工具集合Tika 是一個內(nèi)容抽取的工具集合(a toolkit for text extracting)。它TAMS Analyzer文本抽取和分析TAMS(TextAnalysisMarkupSystem)Analyzer是一個定性的文本數(shù)據(jù)抽取和分析系統(tǒng)。點贊 評論 收藏 分享 手機(jī)掃一掃分享 編輯 分享 舉報