spider_lover
全职 · 500/日  ·  10875/月
工作时间: 工作日20:00-24:00、周末00:00-00:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

我是程序员客栈的spider_lover,一名爬虫工程师;

毕业于吉首大学,担任过亚信科技(中国)的数据开发工程师和上海凭安征信服务有限公司的爬虫工程师;

负责通用采集器,数据中台,以及各大站点的采集开发工作;

熟练使用python,scrapy,mysql,js逆向,spark

如果我能帮上您的忙,请点击“立即预约”或“发布需求”!

工作经历

  • 2023-06-01 -至今上海凭安征信爬虫工程师

    负责帮公司采集各个站点的数据,接口的开发,逆向服务的维护,服务器的管理,负责100+的站点开发

  • 2022-03-01 -2023-05-01亚信数据开发

    主要负责数据中台的开发,负责银行相关业务,银行各个指标的开发,数仓的维护,服务器的维护等

教育经历

  • 2018-09-01 - 2022-06-01吉首大学大数据专业本科

技能

加密解密
MySQL
爬虫
0
1
2
3
4
5
0
1
2
3
4
5
作品
全国律师事务所站点采集

该项目是对全国律师事务所的采集 负责项目从0-1的开发,任务存放在redis队列中,通过playwright框架采集律师事务所的数据。 难点在于该站点存在多个滑块以及字体加密。通过自动化框架采集。

0
2024-06-14 17:53
通用采集器开发

开发该项目主要为了采集招投标相关公告,包括招标中标变更等信息 主要负责用go语言采用rod自动化框架对招投标网站进行列表页以及详情页的采集 主要设计翻页,详情页pdf以及其他各个文件的采集下载,该项目不仅可以采集招投标相关网站,也通用于采集其他列表页详情页的站点 主要难点在于go语言的应用以及rod框架的各种api使用

0
2024-06-14 17:46
全国组织机构统一信用代码数据服务中心站点采集

项目主要通过scrapy进行采集,redis作为中间件存储任务队列,写入json文件,通过脚本读取json文件入库mysql 本人负责该站点从0到1的采集开发,开30个进程可达到日入20W的数据量。 其中的主要难点在于列表页的采集存在极验3的滑块验证,通过逆向,轨迹模拟等破解W参数加密最终拿到数据

0
2024-06-14 17:05
更新于: 06-14 浏览: 158