个人介绍
1.
熟悉Python 语言,掌握 python 的基本用法;
2.熟悉一些网络请求模块:requests、httpx、 aiohttp 等;
3. 熟悉一些数据解析模块:xpath、jsonpath、re、css 以及pyquery等;
4. 熟悉使用任务多线程、多进程以及协程,如:threading、multiprocessing 、asyncio 等模块来提高爬虫的效率;
5. 熟悉scrapy 爬虫框架、scrapy-redis 分布式爬虫,额外了解 pyspider、feapder 等主流爬虫
框架;
6.熟悉一些自动化测试工具:selenium、pypepteer、playwright. appium 等;
熟悉一些中间代理抓包 工具:fiddler、charles、mitmproxy 等;
8.熟悉一些数据库的基本操作:mysql、mongodb、redis、 elasticsearch 等,熟悉rabbitma
消息队列的使用;
9.熟悉常用监控工具,如 prometheus、grafana 来监控爬虫状态;
10. 熟悉自动化模拟登录、过一些验证码以及代理池、cookie 池的搭建;
11. 熟悉linux 的常用命令完成日常维护工作,熟悉 docker 以及k8s 集群的搭建和相关部署;
12. 熟悉敏捷开发来使用git 来完成代码仓库管理;
13. 熟悉chatgpt 的相关调用;
14.了解前端方面的知识,如html xml. css、 js 等:
15. 了解一些加密方法,如对称加密(AES、DES 等)、非对称加密(RSA)、摘要签名算法(MD5、SHA 等)以及常见编码算法 BASE64,可以js调试逆向出加密的逻辑。
工作经历
2022-10-01 -至今杭州超级星选网络科技有限公司爬虫
2022.10-2023.6 抖音精选联盟产品排行榜 爬虫 项目描述: 负费爬取抖音精选选品广场选品库排行榜,找到包之后,通过翻页调试发现请求参数里 msToken 和a_bogus是加密旦变动的,然后通过 js 逆向模拟出动态的值,拿到完整请求参数后对网站进行发送请求,先获取到首页里每个产品的 id,然后拼接 ur,获取到详情页面并对详情页 url发送请求,然后爬取详情页的产品标题,图片***价格,佣金、销量、评分等数据,并存储到 mysql数据库。
2022-10-01 -至今杭州超级星选网络科技有限公司爬虫
2022.10-2023.6 红人点集网站数据 爬虫 项目介绍:编写爬虫程序,制定 js逆向策路,数据提取、分表存储。 技术选型:Scrapxjs逆向、MySQL 项目描述:分析目标网站真实 requests 地址和response 内容,使用 js 逆向实现逆向登录,还原 sign 请求签名,访问网页内容并爬取,数量大使用 Scrapy 框架,通过 xpath、正则提取有效信息,将数据保存为 CSV 文件,实现可视化。 实现了该网站主播查询、产品查询、价格查询、直播数据查询、数据对比等,并存入 MySQL 数据库中。
教育经历
2011-09-01 - 2014-06-01临泉县第二高级中学计算机科学与技术高中
大专在学,学信网可查,学校名:浙江杭州开放大学,目前还没毕业,学的是计算机专业,在杭州
技能
项目介绍:编写爬虫程序,制定js逆向策路,数据提取、分表存储。 技术选型:Scrapy、is逆向、MysQL 项目描述:分析目标网站真实requests 地址和response 内容,使用 js 逆向实现逆向登录,还原 sign 请求签名,访问网页内容并爬取,数量大使用 Scrapy 框架,通过 xpath、正则提取有效信息,将数据保存为 csV 文件,实现可视化,实现了该网站主播查询、产品查询、价格查询、直播数据查询、数据对比等,并存入 MySQL 数据库中。