使用selenium和scrapy对携程网进行爬取并保存到数据库

我要开发同款
睇痞硫硭2022年11月07日
481阅读

作品详情

项目分为url构建和middlewares的设定,spider的parse文件的编写,item文件的设置,pipelines文件写入,setting文件的设置,实现了对携程网站这类动态加载网页的全页面爬取,可以在设置了爬取页数的前提下进行自动化爬取。实现了自动翻页点击,页面保存等自动化功能。
使用re.findall方法对网页数据进行解析得到对应的目标数据,使用item接收对应数据到item中的对应的索引下,以键值对的形式存放在item这个字典中。
本程序全部由我个人完成,使用了selenium和scrapy配合使用达到爬取到携程网全数据的目的。
其中在对selenium介入scrapy的时候需要去拦截request发起的请求,需要在middlewares中对process_request方法进行重写,其中需要将selenium的方法全部写入,再导入HtmlResponse做返回值,将page_source填入到body参数,作为返回值去返回给parse中做response进行后续操作。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论