章欢
1天前在线
全职 · 365/日  ·  7938/月
工作时间: 工作日20:00-23:00、周末18:00-23:00工作地点: 远程
服务企业: 1家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

精通Requests/Scrapy框架开发,擅长突破反爬机制(IP代理池、Selenium动态渲染)。主导开发《斗罗大陆》全本爬虫等15+项目,累计抓取超500万条数据。掌握XPath/BS4解析技术,能高效完成API逆向、验证码破解及数据清洗。熟悉分布式爬虫架构,日均稳定采集10万+数据。持续跟踪AST混淆、WebSocket协议等前沿反爬技术,具备从数据采集到存储分析的全栈能力。

工作经历

  • 2024-09-07 -2025-01-08东莞市达瑞电子股份有限公司仓管

    订单分配,防火墙,物料的进出管理、库存控制、仓库维护、记录与报告、协作沟通、安全合规等方面。每个部分再详细展开,比如入库时要验收、登记、分类存放;出库时要核对单据、先进先出、记录数据;库存管理要定期盘点、控制库存量、处理呆滞物料等等

  • 2022-03-09 -2023-01-13甬矽电子(宁波)股份有限公司OP

    负责Fab厂生产线日常运营管理,确保光刻、蚀刻、薄膜沉积等工艺段高效运转 主导生产良率(Yield)提升项目,运用SPC统计过程控制及DOE实验设计优化工艺流程 制定并执行设备维护计划(PM),管理ASML/KLA/TEL等半导体设备OEE(设备综合效率) 跨部门协作解决异常停机(Down Time),推动生产周期(Cycle Time)缩短20%+ 建立SOP标准操作程序,实施6 Sigma精益生产,达成成本降低与产能爬坡目标

教育经历

  • 2024-03-01 - 2026-06-15湘潭大学计算机应用技术专科已认证

技能

0
1
2
3
4
5
作品
pngimg批量爬取

PngImgDownloader 类简介 PngImgDownloader 类是一个用于从 pngimg.com 网站下载 PNG 图片的 Python 脚本工具类。以下是该类的详细简介: 初始化方法 __init__ ‌base_url‌: 定义了基础 URL,即 https://pngimg.com,这是所有请求的基础。 ‌headers‌: 设置了请求头,模拟了一个 Chrome 浏览器的 User-Agent,以避免被网站识别为爬虫而拒绝服务。 ‌output_dir‌: 定义了图片保存的本地目录,即 ./images/。如果目录不存在,会自动创建。 ‌session‌: 使用 requests.Session() 创建了一个会话对象,用于保持连接,提高请求效率。 ‌category_urls‌: 用于存储 A-Z 分类的 URL 列表。 ‌sub_category_urls‌: 用于存储子分类的 URL 列表。 ‌imgList_urls‌: 用于存储 A-Z 子分类中图片列表的 URL。 方法 _safe_request ‌功能‌: 这是一个带重试机制的请求方法。 ‌参数‌: url: 请求的 URL。 max_retries: 最大重试次数,默认为 3 次。 ‌实现‌: 使用 for 循环进行重试。 在每次重试中,使用 self.session.get 方法发送 GET 请求,并设置请求头和超时时间。 如果请求成功,返回响应对象。 如果请求失败(抛出 requests.exceptions.RequestException 异常),则记录失败信息到 ./请求失败URL.txt 文件中,并打印错误信息。 如果达到最大重试次数仍未成功,返回 None。 错误记录 在请求失败时,会将失败的时间、状态码、请求失败的 URL 记录到 ./请求失败URL.txt 文件中,便于后续排查问题。 使用场景 该类可以用于批量下载 pngimg.com 网站上的 PNG 图片,适用于需要大量图片素材的场景,如设计、开发等。 通过扩展该类的方法,可以进一步实现图片的筛选、分类下载等功能。 注意事项 在使用该类时,应遵守 pngimg.com 网站的使用条款和法律法规,避免过度请求或非法使用。 由于网络环境和网站策略的变化,可能需要定期更新请求头或处理新的反爬虫机制。

0
2025-03-16 16:43
下载次数:0
¥500
斗罗大陆小说爬取

本代码实现了一个自动化爬取《斗罗大陆》小说全本的网络爬虫。通过动态生成610个章节URL,使用Requests库发起高效HTTP请求,配合XPath精准解析HTML文档结构。创新性地采用双保险标题提取策略,自动过滤非法文件名字符,确保本地存储安全。代码包含异常处理机制,支持断点续传功能,并采用UTF-8编码保障中文内容完整性。最终将章节内容按序号+标题格式保存至指定目录,实现小说内容的完整结构化存储,日均抓取效率可达300+章节。

0
2025-03-16 16:36
下载次数:0
¥50
更新于: 03-14 浏览: 49