通过对微信公众号的观察分析得知,在搜狗搜索和app及客户端比较中得
出,搜狗搜索中 并没有阅读量这一数据,故选择从电脑端api中获得文章
列表。
将MitmProxy环境部署完毕后,打开微信电脑版创建一个公众号后进入公众
号页面,打开素材管理中搜索选择公众号,并随意打开一个文章,通过截
取到的json数据包中获得相应的文章标题和url地址。其中begin参数控制
翻页。
通过观察发现内容都是放在这个id=‘js_content’的div标签里的 ,获取
到url后即可遍历获取。所以需要抓取所有只需改变begin参数即可
(begin=0是第一页,begin=5是第二页,以此类推)之后打开电脑版微信
公众号截取请求,发现其中大多数参数固定不变主要变量集中于3个参数,
pass_ticket,appmsg_token,key,其中key参数是多次尝试后发现的时效性
最短参数,另外两个参数和不同公众号和账号本身有关
将模拟机打开并使用appnium操作手机打开对应公众号第一篇取得3个变量
数值,并使用MitmProxy将3个变量通过redis导入所构建的爬虫程序中,并
设置条