个人介绍
熟练使用selenium、appnium等Android自动化框架,及Android adb命令。
熟练应用Linux常用操作命令和vim文本编辑器
熟练应用SQL语句,掌握MySQL、mongodb、Redis等数据库。
熟练应用requests、xpath、正则re模块,熟悉urllib、Beautifulsoup等数据包的库。
熟练应用反反爬虫机制,如代理IP、User-Agent代理、ajax请求分析、cookie登录、模拟浏览器登陆。
熟练应用scrapy,熟悉分布式爬虫的基本架构和流程。
熟练应用HTML/CSS/Ajax,了解JS/jQuery/Bootstrap等Web前端技术。
了解Django和Flask前端框架。
熟悉 Git 的使用,对代码进行上传、管理。
工作经历
2016-04-01 -至今趣点点Python爬虫
1.参与爬虫项目的框架设计和开发,并爬取数据的工作; 2.负责设计和搭建环境,进行页面的数据抓取,清洗,去重; 3.设计爬虫策略和反爬虫机制,提升网页抓取的效率和质量; 4.爬取图片,并对图片进行简单的处理; 5. 抓取视频,并上传到阿里云点播控制台; 6.设计数据库,存储数据
教育经历
2011-09-01 - 2014-06-01陕西铁路工程职业技术学院测绘科学与技术大专
一共获得过两次奖学金,两次优秀班干部,并且成为了一名共产党员
技能
根据公司需求和业务的扩展,需要对*APP云集的所有商品信息进行采集,包括父类模块分类,子类模块分类,商品id,名称,售价,原价,品牌,相关参数,主图,详情图等信息进行了采集,并将图片上传到阿里云的OSS储存器中。 1.抓取*app,必须借助于抓包工具,所以对fiddler抓包工具进行了相关配置,并对*进行设置和安全证书的下载安装; 2.对云集app进行抓包,根据分析得到相关的json数据。因为此app的商品信息和商品的详情图参数不在一个链接中,所以需要对一个商品进行两次解析,才能获取到全部所需信息; 3.使用scrapy框架对相关的信息进行爬取并将数据保存在数据库,使用requests和urllib对商品的相关图片进行下载,并上传到阿里云的OSS储存器中; 4.对代码进行维护和对数据、图片进行二次清洗和更改。
因公司自主研发的*APP“点多多”项目,需要增加商城功能,需要商品展示,按照公司的要求对京东商城的七类商品进行了采集,包括商品类别,商品ID,名称,价格,品牌,参数,折扣价,主图,详情图等相关信息进行了采集;并将数据保存在数据库,图片需上传到OSS上。 1.分析项目网页的结构,制定爬虫的方式; 2.根据项目需求用Scrapy搭建爬虫框架,根据项目需求制定爬取计划; 3.通过Scrapy.Request发送请求,并设置ip代理,用Xpath解析页面,使用正则进行特殊的页面解析,如:js渲染的价格数据和图片链接; 4.对数据进行采集,然后将采集下的数据进行分析处理,清洗; 5.将采集的数据存储到MySql数据库中; 6.将图片先下载到本地,然后在上传到阿里云的OSS储存器中; 7.对代码和数据进行维护和相关的处理。