个人介绍
网页结构解析:熟练使用如 BeautifulSoup、lxml 等工具,能够快速提取 HTML 页面中的有用数据,处理复杂的嵌套结构和动态内容。
动态网页处理:擅长使用 Selenium 等工具处理 JavaScript 动态加载页面,能够模拟用户操作、处理多层页面跳转。
高效数据抓取:熟练使用 requests、aiohttp 等库进行高效的 HTTP 请求,能够控制抓取频率,避免 IP 被封禁。
反爬技术应对:了解常见的反爬机制如验证码、IP 限制等,掌握使用代理池、浏览器指纹伪造、IP 轮换等技术绕过反爬措施。
数据存储与处理:熟练掌握数据存储方式,如将抓取的数据保存为 CSV、JSON 文件,或者存入数据库(MySQL、MongoDB 等)。
多线程与异步编程:能够使用 Python 中的多线程、多进程和异步编程模型,加快大规模数据抓取效率。
API 爬取与解析:能够分析和调用网站的 API 接口,直接获取数据。
工作经历
2024-10-01 -至今麦度Python后端
网页结构解析:熟练使用如 BeautifulSoup、lxml 等工具,能够快速提取 HTML 页面中的有用数据,处理复杂的嵌套结构和动态内容。 动态网页处理:擅长使用 Selenium 等工具处理 JavaScript 动态加载页面,能够模拟用户操作、处理多层页面跳转。 高效数据抓取:熟练使用 requests、aiohttp 等库进行高效的 HTTP 请求,能够控制抓取频率,避免 IP 被封禁。 反爬技术应对:了解常见的反爬机制如验证码、IP 限制等,掌握使用代理池、浏览器指纹伪造、IP 轮换等技术绕过反爬措施。 数据存储与处理:熟练掌握数据存储方式,如将抓取的数据保存为 CSV、JSON 文件,或者存入数据库(MySQL、MongoDB 等)。 多线程与异步编程:能够使用 Python 中的多线程、多进程和异步编程模型,加快大规模数据抓取效率。 API 爬取与解析:能够分析和调用网站的 API 接口,直接获取数据。
教育经历
2024-10-07 - 北京外国语大学大数据本科