雾隐隐o
全职 · 300/日  ·  6525/月
工作时间: 工作日09:00-18:30工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

数据采集 使用 requests、selenium 和 pypeteer 进行数据爬取,熟练掌握相关技术。 熟练运用 scrapy 框架,完成多个爬虫项目。 应对常见反爬措施,熟练模拟登录,确保爬虫稳定运行。 使用多进程、多线程及协程技术,加快数据爬取速度。 设计并实现断点续抓和增量爬虫,确保数据的完整性与连续性。 自主搭建大规模代理 IP 池和大规模账号池,提高爬虫的访问成功率。 熟悉 Gerapy 分布式部署和 Crwlab 部署。 掌握 scrapy 对接 pypeteer 和布隆过滤器的使用方法,优化爬虫性能。 熟悉常见加密算法和 JavaScript 逆向工程。 熟练使用 mitmproxy 抓包工具进行数据分析和调试

工作经历

  • 2024-06-03 -至今天津融创软通爬虫工程师

    爬虫工程师,负责分布式爬虫系统的开发和维护,熟练使用scrapy框架编写项目并进行分布式部署

教育经历

  • 2022-09-01 - 天津师范大学软件工程本科

技能

爬虫
0
1
2
3
4
5
作品
阳光高考

"采用Pypeteer自动化浏览器工具,实现阳光高考网高校招生简章的高效爬取。系统支持PDF格式存储招生简章,并集成断点续抓功能确保网络中断后可恢复作业。通过增量爬虫技术,仅获取更新或新增的数据,减少重复工作。此外,引入指纹去重机制,有效避免重复爬取相同内容,确保数据准确性和高效性。"

0
2024-08-17 02:21
更新于: 08-17 浏览: 59