spider_loverPython-程序员客栈

1月前来过

D级

数据开发

上海

全职 · 500/日 · 10875/月信用正常

工作时间: 工作日20:00-24:00、周末00:00-00:00工作地点: 远程

服务企业: 1家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

我是程序员客栈的spider_lover，一名爬虫工程师；

毕业于吉首大学，担任过亚信科技（中国）的数据开发工程师和上海凭安征信服务有限公司的爬虫工程师；

负责通用采集器，数据中台，以及各大站点的采集开发工作；

熟练使用python，scrapy，mysql，js逆向，spark

如果我能帮上您的忙，请点击“立即预约”或“发布需求”！

2023-06-01 -至今上海凭安征信爬虫工程师
负责帮公司采集各个站点的数据，接口的开发，逆向服务的维护，服务器的管理，负责100+的站点开发
2022-03-01 -2023-05-01亚信数据开发
主要负责数据中台的开发，负责银行相关业务，银行各个指标的开发，数仓的维护，服务器的维护等

2018-09-01 - 2022-06-01吉首大学大数据专业本科

Python

加密解密

MySQL

爬虫

作品

全国律师事务所站点采集

该项目是对全国律师事务所的采集负责项目从0-1的开发，任务存放在redis队列中，通过playwright框架采集律师事务所的数据。难点在于该站点存在多个滑块以及字体加密。通过自动化框架采集。

2024-06-14 17:53

通用采集器开发

开发该项目主要为了采集招投标相关公告，包括招标中标变更等信息主要负责用go语言采用rod自动化框架对招投标网站进行列表页以及详情页的采集主要设计翻页，详情页pdf以及其他各个文件的采集下载，该项目不仅可以采集招投标相关网站，也通用于采集其他列表页详情页的站点主要难点在于go语言的应用以及rod框架的各种api使用

2024-06-14 17:46

全国组织机构统一信用代码数据服务中心站点采集

项目主要通过scrapy进行采集，redis作为中间件存储任务队列，写入json文件，通过脚本读取json文件入库mysql 本人负责该站点从0到1的采集开发，开30个进程可达到日入20W的数据量。其中的主要难点在于列表页的采集存在极验3的滑块验证，通过逆向，轨迹模拟等破解W参数加密最终拿到数据

2024-06-14 17:05

更新于: 2024-06-14 浏览: 246

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐