使用scrapy框架爬取网易云每个模块下新闻标题以及标题下的内容

我要开发同款
proginn22261887892021年12月18日
273阅读

作品详情

1. 手动操作一遍,看看每个板块是不是动态加载,有没有带参数
2. 在终端里 scrapy startproject wanyi 构建wanyi文档,cd进入文档,scrapy genspider wanyipy www.xxx.com 在目录下创建一个爬虫文件
3. 在items文件里建立两个对象(标题和内容)
4. 首先通过xpath爬取到首页中每个模块的href,接着对每一个板块的url进行请求发送
5. 发现每一个板块对应的新闻标题相关的内容都是动态加载,所以得导入selenium库来进行发送请求并在middlewares里拦截并篡改响应数据,再return出新的请求
6. 依次遍历通过xpath获取到每个模块下的标题和标题链接
7. 请求标题链接再通过xpath获取到对应标题下的新闻内容,import items库实例化一个item对象,赋值上标题和内容的值 再yield出去到管道类里边
8. 最后在pipelines文件里进行存储数据的操作
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论