点击空白处退出提示
作品详情
简介: 基于Python3的scrapy_redis + crawlab框架拓展开发, 适用于芯片行业数据采集的分布式爬虫器
主要模块: settings、 middlewares、 pipelines、 items、 spiders、 tools(共用配置与方法封装器)、 special(特殊处理封装器)、 fileStores(文件储存器)
二、 项目功能与特点
拓展功能: 集合了对接mysql/mongo数据库、 redis缓存与队列、 阿里云OSS文件存储、 代理和识别验证码第三方平台接口等功能
爬虫池: 聚集了芯片行业主要的电商平台和知名品牌官网的爬虫
特点:
1、提供了芯片行业主流网站(Digikey、Mouser、Kynix、Arrow等)数据接口
2、封装了HTML中各种table样式标签的通用方法
3、链接了解决各种验证码的第三方平台接口
4、提供了爬虫脚本通用temp, 可更简洁、快速、清晰开发新spider
三、 crawlab爬虫管理后台搭建
1、集部署、任务调度、任务监控、结果展示等模块于一体的爬虫项目管理系统
2、阿里云centos7 + docker + mongodb、redis
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论