个人介绍
精通使用request库,能够处理各种请求类型,并有效管理请求头、请求体等参数,确保数据采集的准确性和稳定性
熟练使用XPath进行HTML/XML文档的解析,能够精准定位并提取所需数据,提高数据采集的效率和质量
掌握正则表达式,抓包技术的语法和用法
精通Scrapy框架的使用,能够构建高效的爬虫项目,实现数据的自动化采集和解析
熟练掌握Selenium框架的使用,能够模拟用户操作进行网页数据的采集
具备异步编程和多线程技术和深厚的JavaScript逆向能力
精通验证码破解与IP协议处理
工作经历
2022-11-03 -2023-11-08中铁十局技术员
技术部信息收集,整理,归纳,日常文件记录,日常报表,各种大数据的采集,分类等等。
教育经历
2023-11-09 - 南京航空航天大学计算机科学与技术本科
python全栈工程师,精通爬虫
技能
爬取该平台数据(https://jzsc.mohurd.gov.cn/data/company ) 将该网站前10页的数据爬取下来并保存到csv中 字段: 统一社会信息代码, 企业名称, 企业法定代表人 ,企业注册属地 WebDriverWait()显示等待 7.1.优点: 代码执行效率快。无需等待整个页面加载完成,只需加载到你要定位的元素就可以执行代码。是最智能的设置元素等待的方式。 7.2.缺点: 7.2.1.要导入from selenium.webdriver.support import expected_conditions as EC - from selenium.webdriver.support.ui import WebDriverWait - from selenium.webdriver.common.by import By - 必须要导入以上3个包,导包路径相当的复杂,啰嗦而且麻烦 7.2.2.写等待时间的代码也是复杂。步骤稍微有点多。 - element=WebDriverWait(driver,10).until(EC.presence_of_element_located((By.ID,‘kw’))) - element.send_keys(‘123’) 原文链接:https://blog.csdn.net/Gscsd_T/article/details/102837046
在pycharm利用JS逆向对*公众平台的登录密码进行逆向, 并描述出其过程 // 过程: // 1.随机输入账号密码 // 2.打开开发者工具找登录包,查看其对应的密码变量名称pwd // 3.在开发者右上角点三个点找到搜索并搜变量pwd // 4.搜索到可能的加密函数,并加断点,点击登录进而查看断点在哪断掉 // 5.点击此断掉的js包,进入并把鼠标放在对应加密函数上 // 6.点击进入并复制相关代码即可