爬取微信公众号文章,转载点赞等数据

我要开发同款
宁缺。2022年10月02日
663阅读
所属分类微信公众号

作品详情

 通过对微信公众号的观察分析得知,在搜狗搜索和app及客户端比较中得
出,搜狗搜索中 并没有阅读量这一数据,故选择从电脑端api中获得文章
列表。
 将MitmProxy环境部署完毕后,打开微信电脑版创建一个公众号后进入公众
号页面,打开素材管理中搜索选择公众号,并随意打开一个文章,通过截
取到的json数据包中获得相应的文章标题和url地址。其中begin参数控制
翻页。
 通过观察发现内容都是放在这个id=‘js_content’的div标签里的 ,获取
到url后即可遍历获取。所以需要抓取所有只需改变begin参数即可
(begin=0是第一页,begin=5是第二页,以此类推)之后打开电脑版微信
公众号截取请求,发现其中大多数参数固定不变主要变量集中于3个参数,
pass_ticket,appmsg_token,key,其中key参数是多次尝试后发现的时效性
最短参数,另外两个参数和不同公众号和账号本身有关
 将模拟机打开并使用appnium操作手机打开对应公众号第一篇取得3个变量
数值,并使用MitmProxy将3个变量通过redis导入所构建的爬虫程序中,并
设置条件当数据为空时(即参数过期)重新从MitmProxy中捕获参数导入,
爬取时通过timesleep降低爬取评率防止被封号。
 在手机中导入多个微信账号,获取不同的appmsg_token参数,防止账号访
问频率过高被封。
 在响应体参数中red_num、old_like_mum分别为阅读量、点赞量,使用json
对象数据提取方法将数据取出后使用pymysql将其保存至mysql数据库,并
存入对应字段进行保存
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论