工作经历
2024-01-22 -2024-03-15深圳市美盛轩电子商务有限公司爬虫工程师
所在部门:IT部 职位:爬虫工程师 职责描述: 1.根据部门所发的需求爬取亚马逊的相关商品数据,对数据进行数据清洗然后储存csv表格中以此来协助运营部门 2.使用selenium自动化框架将浏览器携带用户cookie对商品进行点击浏览访问点击 技术要点: 1.使用requests模块中的Session对象创建和管理HTTP会话,确保跨请求的Cookies一致性。 2.使用lxml来解析响应的页面从而选择使用合适xpath表达式来提取页面中所需数据。 3.在爬取中为了避免反爬,fake useragent模块来随机生成useragent来伪装请求头,以及使用代理jp从而隐藏自己的真实ip,在遇到机,器人验证码反爬时,调用第三方接口来处理机器人验证码(大致原理为判断页面是否存在验证码,如果存在将验证码图片的url发送给第三方接口,第三方接口返回验证码,构造新的get请求将验证码参数携带发送给目标服务器后端,随后继续对原网页发送请求)以及使用cookie来保持登入状态。 4.将爬取的数据根据业务需求存储到csv或者MongoDB中,对需要清洗的数据先导入csv文件通过pandas模块和num
2023-10-16 -2024-01-16北京神州绿盟科技有限公司后端开发实习生
所在部门:开发运营部 负责项目:行业威胁情报共享平台 项目描述:行业网络与信息安全态势感知平台威胁情报模块用于采集各类情报数据,将采集的数据生成行业特色情报,将生成的情报共享为机提供查询和下载功能。 职责描述:主要负责对实验室产出的情报进行加工处理,并将处理后的情报进行展示 在情报审核模块中:1.熟悉审核的整体流程 2.开发下发情报预审模块 3.编写定时脚本自动下发情报等 在情报库模块中: 1.开发情报单条或批量失效生效功能 2.开发情报编辑功能 3,开发漏洞编辑功能等 技术要点: 1.将客户的各种需求转换为业务逻辑,如审核逻辑:用户需要添加审核功能,则根据当前情报中的置信度,情报源,审核信息字段等字段的值,来挑选出可以下发的情报,并在修改审核字段操作时做出限制。 2.在 django 框架下操作 Elasticsearch 中间件,根据不同的场景对文档进行不同的操作,如:在情报审核模块中,根据情报置信度、情报源、审核条件等因素动态拼接 query,从而实现对数据的检索和修改操作 3.使用 ORM 映射操作 PostqreSQL数据库 4.根据用户上传的 csv 文件,读取 csv 的
教育经历
2020-09-01 - 2024-06-15吉首大学张家界学院计算机科学与技术本科