程鸽鸽
全职 · 300/日  ·  6525/月
工作时间: 工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

我是一名Python爬虫工程师

编程语言

Python:最常用的爬虫语言,具有丰富的爬虫库,如 Scrapy、BeautifulSoup、lxml、Requests 和 Selenium。JavaScript:在处理动态加载内容和使用爬虫工具如 Puppeteer 和 Playwright 时很有用。

网络协议

HTTP/HTTPS:理解 HTTP 请求和响应的基本原理,包括常见的 HTTP 方法(GET、POST 等)、状态码和头信息。Cookies 和 Session:了解如何管理和使用 cookies 和 session,以便处理登录和认证。

数据解析

HTML/CSS:熟悉 HTML 结构和 CSS 选择器,以便使用工具提取数据。XPath 和正则表达式:用于在 HTML 中定位和提取数据。

数据存储

数据库:掌握常见的数据库技术,如 MySQL、PostgreSQL、MongoDB,用于存储抓取的数据。文件系统:使用 CSV、JSON、XML 等格式保存和管理数据。

反爬虫技术

代理和用户代理:使用代理 IP 和设置用户代理以绕过反爬虫机制。请求频率和节流:管理请求的频率,避免对目标网站造成过大负担。

并发和异步编程

多线程和多进程:提高抓取效率。异步编程:使用 asyncio 和 aiohttp 等库进行异步抓取,提高性能。

API 使用

RESTful API:理解如何通过 API 获取数据,有时 API 提供的数据比网页抓取更简洁。GraphQL:对于需要与支持 GraphQL 的 API 进行交互的情况。

工具和框架

Scrapy:一个强大的爬虫框架,提供全面的爬取、解析和存储功能。Selenium:用于处理动态内容和与网页进行交互,尤其是涉及 JavaScript 的页面。BeautifulSoup 和 lxml:用于 HTML 和 XML 解析。

调试和测试

调试工具:如浏览器开发者工具,用于分析网页结构和调试抓取代码。单元测试:编写测试代码,确保爬虫功能的正确性


工作经历

  • 2020-08-20 -至今中邮信科Python开发

    参与多个 Python 项目的开发,主要包括内部工具和数据处理系统,负责从需求分析到最终部署的全周期开发。 使用 Python 编写高效的爬虫脚本,自动化提取和处理大规模数据,支持业务分析和决策。 实现并维护多种数据解析工具,利用 BeautifulSoup、lxml 和 Regex 等库进行数据抓取和清洗。 设计和优化数据库结构,使用 MySQL 和 PostgreSQL 进行数据存储和管理,提升数据查询效率。 开发并集成 RESTful API,支持系统间的数据交互和服务调用。 应用多线程和异步编程技术,提升爬虫和数据处理任务的性能。 编写单元测试和调试代码,确保软件的稳定性和可靠性,减少生产环境中的问题。 与团队成员紧密合作,参与技术讨论和代码审查,推动项目进展和代码质量提升。

教育经历

  • 2024-08-16 - 2024-08-20山西大同大学计算机本科

技能

0
1
2
3
4
5
更新于: 08-12 浏览: 53