微信用户1332504399
1月前来过
全职 · 300/日  ·  6525/月
工作时间: 工作日18:00-23:00、周末9:00-18:00工作地点: 远程
服务企业: 29家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

1、两年及以上python爬虫开发经验,逻辑思维强,沟通能力好。有较强的分析能力,更好的完善需求。2、  熟练掌握HTML、CSS、JS的使用,掌握Bootstrap前端框架;3、  熟练掌握Web框架,Django、Flask,有相关的开发经验;4、  熟练掌握Mysql,MongoDB,Redis等常见数据库;5、  熟练掌握linux平台操作指令;6、  熟悉基于正则表达式、ml、bs4等的网页信息抽取技术;7、  精通常用的爬虫技术及架构;8、  熟练掌握Git工作流,码云、GitHub托管代码; 

工作经历

  • 2020-09-01 -至今山东明和中业python爬虫工程师

    负责多平台信息爬取和页面内容的提取分析; 优化抓取策略,充分利用宽带资源,避免限制; 负责完成数据处理,数据挖掘等工作。

教育经历

  • 2019-03-01 - 北京电子科技职业学院计算机应用技术专科

    2019年3月-至今,北京电子科技学院。

技能

0
1
2
3
4
5
作品
瓜子二手车

1、 瓜子二手车有反爬,需要携带 cookie 进行访问 2、 Requests 底层没有封装 url 去重的方法,公司没有 redis,利用 python 集合 set,保存请求的 url,在 去 set 中的内容写入本地文件,后面每次运行程序的时候,在将本地文件中的 url 读取到 set 集合中, 实现 url 去重 3、 请求中加延时,考虑网站能否打开和打开时间问题,一般需要加异常判断、尝试、retry 等减少报错 4、 使用多线爬虫,将数据保存到数据库,对重复的字段对应的数据更新操作 5、 构建 User-Agent 池,使用随机代理,随机采用快代理动态高匿 ip 6、 使用 logging 模块编写监控程序进行爬虫监控,并根据日期定向输出日志到 log 文件

0
2021-01-07 12:58
无讼案例

爬取无讼案例网案例信息。Scrapy-redis 爬取,因为该框架实现 url 和数据去重、持久化、构建 RedisSpider 分布式爬虫,爬取更 快。 联系*需要登陆后才可以看到,需要携带 cookie 访问网页内容 构建 User-Agent 池,使用随机代理,随机采用快代理动态高匿 ip 。保存数据到 MongoDB

0
2021-01-07 12:56
链家

1、 爬取链家济南所有二手房信息,价格、小区、户型、面积、朝向、装修、年限、产权等 2、 使用 requests 请求,正则、xpath 等提取网页需要的内容 3、 为提高爬虫效率,使用多线程爬虫,以及 queue 队列爬取 4、 构建 User-Agent 池,使用随机代理,随机采用快代理动态高匿 ip 5、 保存为字典,通过 PyMongo 操作数据库进行保存 6、 使用 logging 模块变成监控程序进行爬虫监控,并根据日期定向输出日志到 log 文件

0
2021-01-07 12:52
更新于: 2021-01-07 浏览: 474