点击空白处退出提示
作品详情
新冠疫情结束之后,我国经济迎来全面复苏,越来越多的年轻人选择到经济发展较好的城市寻找工作机会,其中不可避免的就是租房问题,基于此爬取贝壳二手房网站获得相关数据,主要包括房屋总价、单价、户型、类型、大小、小区名称、小区区域等
一、实验环境
pycharm 2023 社区版
二、实验步骤
前期准备
1.调用第三方库(包含requests、pyquery、time、pandas、os、random)
2.新建outdata.xlsx文件存放数据
3.新建文本文件page.txt(存放爬取的页码)、success.txt(存放每页的网址)、error.txt
4.设置请求头
主代码分析
1.提取url-list
2.解析url,获得所需要的数据
3.爬取网页每页的代码并存放到page.txt文件中
4.抓取每处房源的网址并存放到success.txt文件中
5.获取房源具体信息,存放到outdata.xlsx文件中
爬取过程
采用utf-8编码格式进行逐页爬取
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论