maven-seimicrawler-plugin SeimiCrawler 工程打包工具开源项目

我要开发同款
匿名用户2016年01月08日
33阅读
开发技术Java
所属分类开发工具、项目构建
授权协议Apache

作品详情

maven-seimicrawler-plugin是为了方便开发者对于SeimiCrawler工程的快速打包并独立部署而专门定制开发的maven打包插件。

开始

pom添加添加plugin

<plugin>    <groupId>cn.wanghaomiao</groupId>    <artifactId>maven-seimicrawler-plugin</artifactId>    <version>1.0.0</version>    <executions>        <execution>            <phase>package</phase>            <goals>                <goal>build</goal>            </goals>        </execution>    </executions>    <!--<configuration>-->        <!-- 默认target目录 -->        <!--<outputDirectory>/some/path</outputDirectory>-->    <!--</configuration>--></plugin>

执行mvncleanpackage即可,包目录结构如下:

.├── bin             # 相应的脚本中也有具体启动参数说明介绍,在此不再敖述│   ├── run.bat    #windows下启动脚本│   └── run.sh     #Linux下启动脚本└── seimi    ├── classes     #Crawler工程业务类及相关配置文件目录    └── lib         #工程依赖包目录SeimiCrawler项目

SeimiCrawler是一个敏捷的,支持分布式的Java爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。

直达SeimiCrawler项目

社区讨论

大家有什么问题或建议现在都可以选择通过下面的邮件列表讨论,首次发言前需先订阅并等待审核通过(主要用来屏蔽广告宣传等)

订阅:请发邮件到 seimicrawler+subscribe@googlegroups.com

发言:请发邮件到 seimicrawler@googlegroups.com

退订:请发邮件至 seimicrawler+unsubscribe@googlegroups.com

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论