shao0000
1月前来过
全职 · 500/日  ·  10875/月
工作时间: 工作日0:00-24:00、周末0:00-24:00工作地点: 远程
服务企业: 57家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

擅长做爬虫,之前爬过淘宝,京东,亚马逊,wos,裁判文书,小程序,app等,技术栈的话关于python爬虫的相关技术差不服都会吧,还有就是开发的话擅长Django全栈也开过。有自己的博客,平时也喜欢浏览一些技术博客,工作比较轻松,有很多时间可以做其他的,可以自己安排,差不多就这些了,之前没有在这个平台上接私活,希望大家多多关照,谢谢!

工作经历

  • 2019-06-01 -至今杭州国杭健康管理有限公司python爬虫工程师

    主要负责公司产品上的数据,从网上多个相关平台拿到数据,进行合并清洗,上传至正式服务器。公司各个部门需要什么数据,都会想办法去获取,参与公司的测试

教育经历

  • 2015-09-01 - 2019-06-01怀化学院电子信息科学与技术本科

    在校学习python和计算机相关知识,担任过学习委员

技能

0
1
2
3
4
5
作品
贴吧数据爬取

 百度贴吧 项目描述:根据项目需求爬取某些贴吧的所有帖子的标题、楼主、时间、评论等信息。并将数据处理成相应的格式,完成数据的月更新。 技术要点: 1、贴吧主页url有两个关键参数:一个kw(关键字),pn(页码)。关键字里面不能带有”吧“否则请求会被重定向,pn每页50个首页以0开始。 2、主页返回内容有两种形式(一种比较正常的,还有一种是帖子列表标签被注释),需要写两套解析。后者采用正则将被注释的内容用正则表达式提取出来,然后和前者一起解析。 3、回复的内容抓包存在一个json里,json的地址是以帖子列表标签里面的data-field参数里的id和pn拼接。

0
2021-07-06 22:38
知乎网爬虫

根据项目要求给的关键词去知乎上检索相应的帖子,然后爬取帖子的标题、url、发帖人、时间、回帖、楼中楼信息,数据更新周期一周。 技术要点: 1、抓包发现知乎的数据以json格式存在一些url下。请求这个url有个关键参数(x-zse-86)会一直在更改。 2、F2去检索这个参数,往上倒推,发现d=x-zse- 83+url+cookie.d_c。 3、md5这个拼接出来的d,然后经过知乎网站自定义的加密过程得到一个字符串,最后x-zse-86=2.0_+字符串,主要使用excejs来调用网站自身的js文件进项加密。 4、从返回的json数据中提取项目需求的数据,然后还有一个comment_count的key,可以判断是否有评论。

0
2021-07-06 22:36
淘宝网爬虫

关于对淘宝网站的数据爬取,包括商品的一些基本信息,商品的价格,链接,图片,商家,商家链接,商品评论等等数据的爬取,完成入库,清洗

1
2021-07-06 22:34

好评度
  • 专业(要投诉)
  • 按时(要投诉)
  • 态度(要投诉)
成功率 0 % 1 人评论
用户评价

用户470664
juddy
不能按时
更新于: 2020-04-02 浏览: 383