项目描述:基于一线业务部门需求,抓取国外导购同行的网站商品信息数据。项目需要采集几十个同行站点,我们使用Python爬虫框架scrapy完成,主要采集信息包括商品的出站链接,商品图片以及价格等等。项目中将数据抓取,图片采集和上传,出站链接的解析和清洗分离开,各自完成自身功能。采集过程中通过对接elasticsearch和grafana报警系统对某些指标进行监控,采集完成对数据进行检测校验 重复,缺失和异常的字段,及时修正,数据通过rabbitmq队列推送给需求方。责任描述:研究同行的网站结构,编写爬虫脚本采集商品数据; 对采集后的数据清洗、去重、整合、入库; 完善日志输出信息,对接监控和告警。声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论