Scrapy先驱者人工智能-程序员客栈

1月前来过

D级

后端开发工程师

深圳

全职 · 400/日 · 8700/月信用正常

工作时间: 工作日09:00-20:00、周末09:00-21:00工作地点: 远程

服务企业: 1家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

累计5个月自学python到深夜3点的那位萌萌哒的小蒋！！！

2021-05-15 -至今香港澳美科技后端开发工程师
我的职责和工作内容主要是负责产品的后端应用设计、以及前后端接口设计; 负责产品的后端开发、测试、开发、测试、优化与维护,解决系统性能和技术难题；参与公司产品后端技术架构、流程标准等的规划设计；参与公司后端技术栈技术栈封装，以及协助其他团队完成应用；负责具体后端服务、组件、代码编写及相关文档编写，现在也认真学习的python爬虫相关知识框架。

2017-09-05 - 2021-07-25江西农业大学软件工程本科

Python

Java

作品

奖金宝

1.主要模块：用户管理模块（登录，注册。权限等），DM模块，产品浏览模块，数据处理模块（等删改查，失效等） 2.项目采用SSM+MVC结构分层的设计方式：表现层：JSP，JQuery，Ajax，Struts2标签+EL 控制层：Struts2控制器，Action 业务层：Service 数据访问层：Dao+连接池

2023-04-09 09:31

http://www.cq-p.com.cn/cqpwps网站数据处理

1.项目需求是获取该网站内所有数据并保存到指定数据库，这里我把拿到的数据放到了mongodb，模块主要是处理登入模块，获取cookie和token模块，处理数据请求参数模块，数据处理模块，异常处理模块等 2.该爬虫是我个人开发，主要基于Scrapy框架实现的，用到的技术栈主要有scrapy，selenium，phatomjs，requests，XPath解析器，BeautifulSoup解析器，PyQuery CSS解析器抽取结构化数据, 使用正则表达式抽取非结构化数据等 3.该网站技术难点主要体现在获取登入所需的cookie，一共进行了6次重定向且每次重定向不能让他自动跳转，每次重定向会拿到一个cookie片段，最后拼接在一起，最后还需做一个加密处理才是能使用的cookie！！！

2023-04-09 09:38

商业网站数据处理

1. 项目主要分为5个模块，基于Scrapy框架的engine引擎，scheduler调度器，downloader下载器，spider爬虫，item pipeline数据管道，可以帮助使用者： a.爬取数据,进行市场调研和商业分析 b.作为机器学习、数据挖掘的原始数据 c.爬取各种资源（包括图片、文本、视频等） 2. 整个项目都是我个人独立开发完成的，用到的技术栈主要是基于Scrapy框架衍生的一系列技术，目前已完成累计200多家商业网站的数据分析，提取，处理，清洗工作。实现逻辑是：a.当SPIDER要爬取某URL地址时，使用该URL构造一个REQUEST对象，提交给ENGINE b.request对象随后进入scheduler按某种算法（CFQ）进行排队，出队，送往DOWNLOADER c.downloader根据request对象中的URL地址发送一次HTTP请求到网站服务器，用http响应构造Response对象，其中包含页面的HTML文本 d.response对象递送对spider页面解析函数进行处理，提取数据，封装成item提交给engine，进一步送往item piplines进行处理，最终由exporter写入文件，另一方面，页面解析函数还从页面提取链接，构造出新的request对象提交对engine，最后再循环实现。 3. 技术难点主要有以下几点：1.基于数据加密进行反爬（特殊化处理有css数据偏移，自定义字体，数据加密，数据图片，特殊编码格式） 2.scheduler进行排队的各种算法的设计（如CFQ算法等） 3.TCP, UDP等相关的协议问题

2023-04-09 09:53

更新于: 2022-12-05 浏览: 199

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐