项目描述:基于一线业务部门需求,抓取国外导购同行的网站商品信息数据。项目需要采集几十个同行站点,我们使用Python爬虫框架scrapy完成,主要采集信息包括商品的出站链接,商品图片以及价格等等。项目中将数据抓取,图片采集和上传,出站链接的解析和清洗分离开,各自完成自身功能。采集过程中通过对接elasticsearch和grafana报警系统对某些指标进行监控,采集完成对数据进行检测校验 重复,缺失和异常的字段,及时修正,数据通过rabbitmq队列推送给需求方。责任描述:研究同行的网站结构,编写爬虫脚本采集商品数据; 对采集后的数据清洗、去重、整合、入库; 完善日志输出信息,对接监控和告警。
评论