scrapy爬取去哪儿网,练习项目

我要开发同款
proginn17575925842023年07月30日
184阅读

作品详情

爬取步骤:
1、首先cmd启动scrapy,生成爬取去哪儿网的scrapy文件夹,包含spider、pipline、setting等文件,指定域名。
2、编写主要爬虫文件spider,首先爬取主页上的字段信息以及详细页的网址,然后获取到详细页的网址后,通过回调函数进入到详细页爬取。主页爬取采用re。
3、在进入到详细页之前,大部分详细页网站会被重定向到一个中间页面,中间页面里有详细页的网址,通过re获取到所要的
详细页网址,继续通过回调函数进入详细页
4、进入到详细页后,通过response返回的内容获取到要爬取的
字段信息,接着发现部分信息需要更进一步到动态加载内容中获取,继续用回调函数进入到动态加载网页中
5、进入到动态加载网页需要携带参数、携带参数进入后通过json转换获取到要爬取的评论数等信息
6、在setting里设置请求头和代理ip池,并且到midware中间件设置爬取时更换ip
7、设置item和pipline将数据保存到csv文件中去
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论