分析网站、网页、链接的特征挖掘,对指定的多个网站的网页进行网页抓取、数据提取, 负责特殊网页采集任务的分析及采集方案设计
项目经验
※ 项目名称:房价网分布式信息采集
项目描述:这个项目是对房价网房产信息进行数据提取。
关键词:scrapy, scrapy-redis, XPath, re, json, redis, csv, mysql, User-Agent, IP, request
技术简介:
1、使用Python的爬虫框架scrapy框架
2、使用XPath(lxml),正则(re)进行页面分析并提取提供给数据部门
3、使用scrapy-redis进行分布式爬取
4、使用json,CSV和redis进行信息存储
项目模块介绍:
1、spider模块:处理需要的数据和请求地址
2、中间件模块: 设置代理和User-Agent
3、管道模块:数据库交互并保存数据
职责描述:负责spider模块和中间件模块