Web-HarvestWeb 數(shù)據(jù)提取工具
Web-Harvest 是用 Java 編寫(xiě)的開(kāi)源 Web 數(shù)據(jù)提取工具。它提供了一種收集所需網(wǎng)頁(yè)并從中提取有用數(shù)據(jù)的方法。為了做到這一點(diǎn),它利用了成熟的文本/xml操作技術(shù),如XSLT、XQuery和正則表達(dá)式。Web-Harvest主要專注于基于HTML/XML的網(wǎng)站,這些網(wǎng)站仍然占網(wǎng)絡(luò)內(nèi)容的絕大部分。另一方面,它可以很容易地通過(guò)定制的Java庫(kù)來(lái)補(bǔ)充,以增強(qiáng)其提取能力。
評(píng)論
圖片
表情
