汽车之家数据爬取

我要开发同款
零电2024年11月18日
7阅读
开发技术爬虫、python
所属分类数据查询

作品详情

使用了协程来爬取数据用mysql数据库进行保存,并进行数据去重。
思路分析:
1. 当前页面数据为静态数据,在翻页时url中的sp1会变更为sp2,所以当前页面可以使用xpath提取数据。
2. 通过首页进入到详情页有当前汽车的配置信息,汽车配置信息页中的数据是动态数据,可以使用抓包的方式获取api。
3. 根据获取的api链接发现当前链接中存在查询字符串:specid
4. 回到首页,在汽车列表中通过元素发现li标签中存在汽车的id值,获取id值拼接api链接地址。
5. 构造请求访问构造好的api地址获取数据。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论