maven-seimicrawler-pluginSeimiCrawler 工程打包工具
maven-seimicrawler-plugin 是為了方便開發(fā)者對(duì)于 SeimiCrawler 工程的快速打包并獨(dú)立部署而專門定制開發(fā)的 maven 打包插件。
開始
pom添加添加plugin
<plugin> <groupId>cn.wanghaomiao</groupId> <artifactId>maven-seimicrawler-plugin</artifactId> <version>1.0.0</version> <executions> <execution> <phase>package</phase> <goals> <goal>build</goal> </goals> </execution> </executions> <!--<configuration>--> <!-- 默認(rèn)target目錄 --> <!--<outputDirectory>/some/path</outputDirectory>--> <!--</configuration>--> </plugin>
執(zhí)行mvn clean package即可,包目錄結(jié)構(gòu)如下:
. ├── bin # 相應(yīng)的腳本中也有具體啟動(dòng)參數(shù)說明介紹,在此不再敖述 │ ├── run.bat #windows下啟動(dòng)腳本 │ └── run.sh #Linux下啟動(dòng)腳本 └── seimi ├── classes #Crawler工程業(yè)務(wù)類及相關(guān)配置文件目錄 └── lib #工程依賴包目錄
SeimiCrawler項(xiàng)目
SeimiCrawler是一個(gè)敏捷的,支持分布式的Java爬蟲開發(fā)框架,希望能在最大程度上降低新手開發(fā)一個(gè)可用性高且性能不差的爬蟲系統(tǒng)的門檻,以及提升開發(fā)爬蟲系統(tǒng)的開發(fā)效率。在SeimiCrawler的世界里,絕大多數(shù)人只需關(guān)心去寫抓取的業(yè)務(wù)邏輯就夠了,其余的Seimi幫你搞定。設(shè)計(jì)思想上SeimiCrawler受Python的爬蟲框架Scrapy啟發(fā)很大,同時(shí)融合了Java語(yǔ)言本身特點(diǎn)與Spring的特性,并希望在國(guó)內(nèi)更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默認(rèn)的HTML解析器是JsoupXpath(獨(dú)立擴(kuò)展項(xiàng)目,非jsoup自帶),默認(rèn)解析提取HTML數(shù)據(jù)工作均使用XPath來完成(當(dāng)然,數(shù)據(jù)處理亦可以自行選擇其他解析器)。
直達(dá)SeimiCrawler項(xiàng)目
社區(qū)討論
大家有什么問題或建議現(xiàn)在都可以選擇通過下面的郵件列表討論,首次發(fā)言前需先訂閱并等待審核通過(主要用來屏蔽廣告宣傳等)
-
訂閱:請(qǐng)發(fā)郵件到 [email protected]
-
發(fā)言:請(qǐng)發(fā)郵件到 [email protected]
-
退訂:請(qǐng)發(fā)郵件至 [email protected]
