不挽
14天前在线
全职 · 300/日  ·  6525/月
工作时间: 工作日08:30-23:00、周末09:00-21:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

我是程序员不挽,主要技能有:

编程能力:熟练掌握 Python,C语言,具备良好的编码习惯和代码质量意识

爬虫技术:熟练掌握 Scrapy、Requests、selenium 、playwright 等爬虫框架工具,能够灵活运用。

数据提取优化:熟悉 Xpath ,正则表达式,jsonpath 等提取技术。

数据处理:熟悉 Mongodb的基本语言及使用

大数据集群:了解 hadoop、spark、hive 等分布式集群搭建

有着许多网站的爬虫经验

工作经历

  • 2023-03-13 -2023-07-04数库(上海)科技有限公司数据处理

    1.了解数库的数据生产体系; 2.实际上手操作数库开发 DAS 系统来生产财务附注数据; 3.上级分配的其他工作任务; 4.完成上级分配的数据处理工作。

教育经历

  • 2019-09-01 - 2023-06-16常州大学数据科学与大数据技术本科已认证

    主修课程: C语言、 数据可视化、 大数据编程、 Python程序设计、 Linux操作系统 1.连续四年担任班级心理委员; 2.在2020-2021年内担任学院青年志愿者协会项目人事部副部长; 3.在2021-2022年内担任学院青年志愿者协会副会长;担任副会长期间组织的志愿活

技能

MongoDB
爬虫
0
1
2
3
4
5
0
1
2
3
4
5
作品
playwright爬取京东联盟商品数据

内容: 该项目是通过playwright进行网页自动爬取京东联盟商品数据 内容: 1、主要利用python爬虫中的pymongo、playwright第三方库进行网页自动化和数据存储爬取 2、分析京东联盟网站的html信息,得到需要的数据所在位置,通过xpath数据提取语法 提取到数据 3、将得到的数据保存到mongodb中 业绩: 本项目通过pymongo、playwright等第三方库进行京东联盟的商品数据爬取,playwright可以实现网页自动化,绕过反爬措施检测。将得到的数据进行保存,以便于后续的数据分析与挖掘。

0
2024-06-25 19:09
selenium抓取苏宁图书数据

内容: 该项目是通过爬虫自动化框架selenium实现苏宁易购网站的图书数据爬虫 内容: 1、利用selenium、lxml、re、json等python爬虫第三方库 2、分析苏宁易购图书数据网页html、并通过xpath得到需要的数据,在本项目中主要爬取了书名和价格两个数据 3、将得到的数据进行文件的保存 主要保存方式有mongodb、json、excel表格 业绩: 本项目通过selenium框架,绕过js,实现对苏宁易购电商网页图书数据的爬取,并将获得的数据保存在json文件中,能够为后续 的数据分析提供完整数据

0
2024-06-25 19:00
更新于: 06-25 浏览: 12