Zerg 基于docker的分布式爬虫服务开源项目

我要开发同款
土豆哇哇2016年04月18日
76阅读
所属分类Google Go、应用工具、网络爬虫
授权协议Apache

作品详情

 zerg

  基于docker的分布式爬虫服务

特性

多机多IP,充分利用IP资源

服务自动发现和注册(基于etcd和registrator)

负载均衡

服务端客户端通信基于gRPC,支持多种编程语言的客户端

可设置抓取超时

支持GET、HEAD、POST方法

支持自定义header

如何部署第一步:配置etcd

我把etcd容器化了,并开发了脚本使得部署etcdcluster非常容易,见github.com/huichen/etcd_docker

为了容灾,请至少在三台服务器上运行etcd实例。为了方便调用,你可以固定etcendpoint的端口号,并在所有机器上手工添加etcdhost的hostname。

第二步:启动registrator服务发现程序

你需要在集群的每一台服务器上都运行registrator,这使得我们可以自动发现和注册分布式服务

docker run -d --name=registrator --net=host --volume=/var/run/docker.sock:/tmp/docker.sock \  gliderlabs/registrator etcd://<etcd 接入点的 ip:port>/services

请把上面的etcd接入点换成你的etcd地址。

第三步:部署zerg服务

进入service_container子目录,然后运行

./build_docker_image.sh

这会生成unmerged/zerg容器。然后在集群的每台服务器上启动容器:

docker run -d -P unmerged/zerg

registrator会自动注册这些服务到etcd。如果单机有多个IP,你可以单机启动多个容器,并在-P中分别指定IP。

第四步:调用样例代码

进入examples目录,运行

go run zerg_crawl.go --endpoints https://<你的 etcd host:ip> --url https://taobao.com可选步骤

1、重新生成protobufservice

protoc protos/crawl.proto --go_out=plugins=grpc:protos -I protos/

2、本地测试

启动本地服务。进入service_container目录,然后运行

go run service.go

然后进入examples目录,运行

go run single_machine_crawl.go --url https://taobao.com
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论