租房数据采集|标准化

我要开发同款
proginn00154766442024年12月22日
289阅读

作品详情

开发环境:Windows Python3 Scrapy MySQL MongoDB Redis pyexecjs
项目描述:
项目是基于scrapy框架开发,主要抓取58同城、城市房产、安居客、链家、阿里法拍、海豚法拍等网站的房产数据,并对数据进行去重去偏差等标准化处理。
责任描述:
网站反爬分析。
Scrapy框架搭建。
爬虫程序开发,反反爬:
(1)IP封锁,控制请求频率或者使用IP代理。
(2)Headers请求头校验,Refererr/User-Agent等设置
(3)字体反爬,需要找到对应字体文件,破解映射关系。
(4)js混淆反爬,找到对应的js文件,分析js源码,找到关键代码,用pyexecjs库传参执行js函数,获取动态数据,再根据该数据请求到对应接口。
(5)验证码反爬,使用selenium模拟浏览器请求破解,或者使用对接打码平台。
下载器下载数据后对应数据进行解析,用到的解析方式有lxml、xpath、re等。
数据去重去偏差标准化处理。
使用MongoDB存储数据。
项目部署、维护。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论