DenseSpider 网络爬虫开源项目

匿名用户2015年09月06日

60阅读

所属分类Google Go、应用工具、网络爬虫

授权协议MPL

作品详情

本项目fork项目go_spider，github：https://github.com/hu17889/go_spider ，因此项目架构的部分文档可以参考此项目。

同时项目架构、部分思路参考了python的经典爬虫scrapy。

基本结构：

Spider模块（主控）Downloader模块（下载器）PageProcesser模块（页面分析）History（Url采集历史记录）Scheduler模块（任务队列）Pipeline模块（结果输出）

主要Feature:

1. 基于Go语言的并发采集2. 页面下载、分析、持久化模块化，可自定义扩展3. 采集日志记录（Mongodb支持）4. 页面数据自定义存储（Mysql、Mongodb）5. 深度遍历，同时可自定义深度层次6. Xpath解析

主要用于定向采集网站。

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

点击空白处退出提示

您好 👋

我们能提供什么帮助？

向我们发送消息

常见问题、使用帮助、人工咨询等

使用微信扫一扫