工作经历
2021-05-15 -至今香港澳美科技后端开发工程师
我的职责和工作内容主要是负责产品的后端应用设计、以及前后端接口设计; 负责产品的后端开发、测试、开发、测试、优化与维护,解决系统性能和技术难题;参与公司产品后端技术架构、流程标准等的规划设计;参与公司后端技术栈技术栈封装,以及协助其他团队完成应用;负责具体后端服务、组件、代码编写及相关文档编写,现在也认真学习的python爬虫相关知识框架。
教育经历
2017-09-05 - 2021-07-25江西农业大学软件工程本科
技能
1.主要模块:用户管理模块(登录,注册。权限等),DM模块,产品浏览模块,数据处理模块(等删改查,失效等) 2.项目采用SSM+MVC结构分层的设计方式: 表现层:JSP,JQuery,Ajax,Struts2标签+EL 控制层:Struts2控制器,Action 业务层:Service 数据访问层:Dao+连接池
1.项目需求是获取该网站内所有数据并保存到指定数据库,这里我把拿到的数据放到了mongodb,模块主要是处理登入模块,获取cookie和token模块,处理数据请求参数模块,数据处理模块,异常处理模块等 2.该爬虫是我个人开发,主要基于Scrapy框架实现的,用到的技术栈主要有scrapy,selenium,phatomjs,requests,XPath解析器,BeautifulSoup解析器,PyQuery CSS解析器抽取结构化数据, 使用正则表达式抽取非结构化数据等 3.该网站技术难点主要体现在获取登入所需的cookie,一共进行了6次重定向且每次重定向不能让他自动跳转,每次重定向会拿到一个cookie片段,最后拼接在一起,最后还需做一个加密处理才是能使用的cookie!!!
1. 项目主要分为5个模块,基于Scrapy框架的engine引擎,scheduler调度器,downloader下载器,spider爬虫,item pipeline数据管道,可以帮助使用者: a.爬取数据,进行市场调研和商业分析 b.作为机器学习、数据挖掘的原始数据 c.爬取各种资源(包括图片、文本、视频等) 2. 整个项目都是我个人独立开发完成的,用到的技术栈主要是基于Scrapy框架衍生的一系列技术,目前已完成累计200多家商业网站的数据分析,提取,处理,清洗工作。实现逻辑是:a.当SPIDER要爬取某URL地址时,使用该URL构造一个REQUEST对象,提交给ENGINE b.request对象随后进入scheduler按某种算法(CFQ)进行排队,出队,送往DOWNLOADER c.downloader根据request对象中的URL地址发送一次HTTP请求到网站服务器,用http响应构造Response对象,其中包含页面的HTML文本 d.response对象递送对spider页面解析函数进行处理,提取数据,封装成item提交给engine,进一步送往item piplines进行处理,最终由exporter写入文件,另一方面,页面解析函数还从页面提取链接,构造出新的request对象提交对engine,最后再循环实现。 3. 技术难点主要有以下几点:1.基于数据加密进行反爬(特殊化处理有css数据偏移,自定义字体,数据加密,数据图片,特殊编码格式) 2.scheduler进行排队的各种算法的设计(如CFQ算法等) 3.TCP, UDP等相关的协议问题