部分网站热门旅游景点信息爬取

我要开发同款
0924x2023年07月21日
248阅读
所属分类信息爬取

作品详情

旅游景点爬取的网站有携程、同程和穷游三个网站。由于每个网站所呈现出来的信息不一致,所以在爬取不同网站的时候所要获取的信息也会不一致。因此在爬取不同网站时,需要根据网站所呈现的不同的信息以及自己所需要的字段进行抓取信息。而携程网站是一个静态的网站,景点的名称、景点的地址及景点的评论人数的获取可以直接从主页面进行解析获取,另外由网页中获取的详情页的链接进入景点的详情页获取景点评论人的昵称,评论内容,以及评论时间。同程是一个动态的网页,但是它所请求的方式是get。首先进入网页的第一页,获取景点的名称、景点所在的城市、景点的星级以及景点的详细地址,若网页中没有景点的星级,即可在解析时增加判断,并且获取景点的sid属性,利用各个景点的是的不同进入不同景点的详情页,在详情页中返回json文件,在从json文件中利用列表名以及字典的键进行评论的用户名、评论内容和评论时间的获取。由于同程旅游景点的主页面的页面链接是变化的,可以改变链接中的page参数进行翻页的爬取。穷游也是一个动态的网页,但是它网页请求的方式是post,并且由于穷游景点的主页面的翻页操作的链接是不变的,因此通过开发者工具中的网络元素的表单数据page的循环变化,进行景点主页面的翻页读取,而且可以通过改变表单数据中的pid和rank数据的变化进行不同城市的景点数据的爬取。当通过表单数据进行访问时,返回json文件,通过读取json文件获取景点的景点名称、评分、点评人数和详情页的链接,通过获取到的链接进行请求,通过请求后得到的json文件进行关键字的匹对,获取用户的名称、评论内容以及评论的时间。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论