基于docker的分布式爬虫服务
特性多机多IP,充分利用IP资源
服务自动发现和注册(基于etcd和registrator)
负载均衡
服务端客户端通信基于gRPC,支持多种编程语言的客户端
可设置抓取超时
支持GET、HEAD、POST方法
支持自定义header
如何部署第一步:配置etcd我把etcd容器化了,并开发了脚本使得部署etcdcluster非常容易,见github.com/huichen/etcd_docker
为了容灾,请至少在三台服务器上运行etcd实例。为了方便调用,你可以固定etcendpoint的端口号,并在所有机器上手工添加etcdhost的hostname。
第二步:启动registrator服务发现程序你需要在集群的每一台服务器上都运行registrator,这使得我们可以自动发现和注册分布式服务
docker run -d --name=registrator --net=host --volume=/var/run/docker.sock:/tmp/docker.sock \ gliderlabs/registrator etcd://<etcd 接入点的 ip:port>/services请把上面的etcd接入点换成你的etcd地址。
第三步:部署zerg服务进入service_container子目录,然后运行
./build_docker_image.sh这会生成unmerged/zerg容器。然后在集群的每台服务器上启动容器:
docker run -d -P unmerged/zergregistrator会自动注册这些服务到etcd。如果单机有多个IP,你可以单机启动多个容器,并在-P中分别指定IP。
第四步:调用样例代码进入examples目录,运行
go run zerg_crawl.go --endpoints https://<你的 etcd host:ip> --url https://taobao.com可选步骤1、重新生成protobufservice
protoc protos/crawl.proto --go_out=plugins=grpc:protos -I protos/2、本地测试
启动本地服务。进入service_container目录,然后运行
go run service.go然后进入examples目录,运行
go run single_machine_crawl.go --url https://taobao.com
评论