个人介绍
工作经历
2019-06-01 -至今杭州国杭健康管理有限公司python爬虫工程师
主要负责公司产品上的数据,从网上多个相关平台拿到数据,进行合并清洗,上传至正式服务器。公司各个部门需要什么数据,都会想办法去获取,参与公司的测试
教育经历
2015-09-01 - 2019-06-01怀化学院电子信息科学与技术本科
在校学习python和计算机相关知识,担任过学习委员
技能
百度贴吧 项目描述:根据项目需求爬取某些贴吧的所有帖子的标题、楼主、时间、评论等信息。并将数据处理成相应的格式,完成数据的月更新。 技术要点: 1、贴吧主页url有两个关键参数:一个kw(关键字),pn(页码)。关键字里面不能带有”吧“否则请求会被重定向,pn每页50个首页以0开始。 2、主页返回内容有两种形式(一种比较正常的,还有一种是帖子列表标签被注释),需要写两套解析。后者采用正则将被注释的内容用正则表达式提取出来,然后和前者一起解析。 3、回复的内容抓包存在一个json里,json的地址是以帖子列表标签里面的data-field参数里的id和pn拼接。
根据项目要求给的关键词去知乎上检索相应的帖子,然后爬取帖子的标题、url、发帖人、时间、回帖、楼中楼信息,数据更新周期一周。 技术要点: 1、抓包发现知乎的数据以json格式存在一些url下。请求这个url有个关键参数(x-zse-86)会一直在更改。 2、F2去检索这个参数,往上倒推,发现d=x-zse- 83+url+cookie.d_c。 3、md5这个拼接出来的d,然后经过知乎网站自定义的加密过程得到一个字符串,最后x-zse-86=2.0_+字符串,主要使用excejs来调用网站自身的js文件进项加密。 4、从返回的json数据中提取项目需求的数据,然后还有一个comment_count的key,可以判断是否有评论。