贴吧数据爬取

我要开发同款
shao00002021年07月06日
454阅读

作品详情

 百度贴吧
项目描述:根据项目需求爬取某些贴吧的所有帖子的标题、楼主、时间、评论等信息。并将数据处理成相应的格式,完成数据的月更新。
技术要点:
1、贴吧主页url有两个关键参数:一个kw(关键字),pn(页码)。关键字里面不能带有”吧“否则请求会被重定向,pn每页50个首页以0开始。
2、主页返回内容有两种形式(一种比较正常的,还有一种是帖子列表标签被注释),需要写两套解析。后者采用正则将被注释的内容用正则表达式提取出来,然后和前者一起解析。
3、回复的内容抓包存在一个json里,json的地址是以帖子列表标签里面的data-field参数里的id和pn拼接。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论