知乎网爬虫

我要开发同款
shao00002021年07月06日
231阅读

作品详情

根据项目要求给的关键词去知乎上检索相应的帖子,然后爬取帖子的标题、url、发帖人、时间、回帖、楼中楼信息,数据更新周期一周。
技术要点:
1、抓包发现知乎的数据以json格式存在一些url下。请求这个url有个关键参数(x-zse-86)会一直在更改。
2、F2去检索这个参数,往上倒推,发现d=x-zse- 83+url+cookie.d_c。
3、md5这个拼接出来的d,然后经过知乎网站自定义的加密过程得到一个字符串,最后x-zse-86=2.0_+字符串,主要使用excejs来调用网站自身的js文件进项加密。
4、从返回的json数据中提取项目需求的数据,然后还有一个comment_count的key,可以判断是否有评论。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论