本项目主要是对链家网站数据的爬取,链家网主要是针对新房、二手房以及租房服务,通过爬取链家网的数据,如新房效果图,地址,价格,新房规格等信息,将提取的数据通过redis数据库去重并存储在mysql数据库,爬取数据使用分布式技术,提高了爬取数据的效率。采用的工具包有requests,re,lxml,框架 scrapy,中间件redis,数据库mysql等
评论