D华华
1月前来过
全职 · 500/日  ·  10875/月
工作时间: 工作日10:00-22:00、周末10:00-22:00工作地点: 远程
服务企业: 4家累计提交: 2工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

熟练应用Python语言,熟悉面向对象和函数式编程思想。
熟练使用selenium、appnium等Android自动化框架,及Android adb命令。
熟练应用Linux常用操作命令和vim文本编辑器
熟练应用SQL语句,掌握MySQL、mongodb、Redis等数据库。
熟练应用requests、xpath、正则re模块,熟悉urllib、Beautifulsoup等数据包的库。
熟练应用反反爬虫机制,如代理IP、User-Agent代理、ajax请求分析、cookie登录、模拟浏览器登陆。
熟练应用scrapy,熟悉分布式爬虫的基本架构和流程。
熟练应用HTML/CSS/Ajax,了解JS/jQuery/Bootstrap等Web前端技术。
了解Django和Flask前端框架。
熟悉 Git 的使用,对代码进行上传、管理。

工作经历

  • 2016-04-01 -至今趣点点Python爬虫

    1.参与爬虫项目的框架设计和开发,并爬取数据的工作; 2.负责设计和搭建环境,进行页面的数据抓取,清洗,去重; 3.设计爬虫策略和反爬虫机制,提升网页抓取的效率和质量; 4.爬取图片,并对图片进行简单的处理; 5. 抓取视频,并上传到阿里云点播控制台; 6.设计数据库,存储数据

教育经历

  • 2011-09-01 - 2014-06-01陕西铁路工程职业技术学院测绘科学与技术大专

    一共获得过两次奖学金,两次优秀班干部,并且成为了一名共产党员

技能

Linux
Appium
Django
Redis
MongoDB
git
Selenium
python爬虫
MySQL
0
1
2
3
4
5
0
1
2
3
4
5
作品
某集APP数据爬取

根据公司需求和业务的扩展,需要对*APP云集的所有商品信息进行采集,包括父类模块分类,子类模块分类,商品id,名称,售价,原价,品牌,相关参数,主图,详情图等信息进行了采集,并将图片上传到阿里云的OSS储存器中。 1.抓取*app,必须借助于抓包工具,所以对fiddler抓包工具进行了相关配置,并对*进行设置和安全证书的下载安装; 2.对云集app进行抓包,根据分析得到相关的json数据。因为此app的商品信息和商品的详情图参数不在一个链接中,所以需要对一个商品进行两次解析,才能获取到全部所需信息; 3.使用scrapy框架对相关的信息进行爬取并将数据保存在数据库,使用requests和urllib对商品的相关图片进行下载,并上传到阿里云的OSS储存器中; 4.对代码进行维护和对数据、图片进行二次清洗和更改。

0
2020-04-23 15:15
某东商品数据爬取

因公司自主研发的*APP“点多多”项目,需要增加商城功能,需要商品展示,按照公司的要求对京东商城的七类商品进行了采集,包括商品类别,商品ID,名称,价格,品牌,参数,折扣价,主图,详情图等相关信息进行了采集;并将数据保存在数据库,图片需上传到OSS上。 1.分析项目网页的结构,制定爬虫的方式; 2.根据项目需求用Scrapy搭建爬虫框架,根据项目需求制定爬取计划; 3.通过Scrapy.Request发送请求,并设置ip代理,用Xpath解析页面,使用正则进行特殊的页面解析,如:js渲染的价格数据和图片链接; 4.对数据进行采集,然后将采集下的数据进行分析处理,清洗; 5.将采集的数据存储到MySql数据库中; 6.将图片先下载到本地,然后在上传到阿里云的OSS储存器中; 7.对代码和数据进行维护和相关的处理。

0
2020-04-23 15:13
某点评网数据爬取

根据客户要求,需要爬取某点评网的美食店铺信息,包括:店铺id,店铺名称,*,评分,星级,地址,营业时间,店铺类型,经纬度,推荐菜品。 1.根据需求搭建爬虫框架,并分析解析网页; 2.设置ip代理池,开启redis服务做缓存和去重; 3.某点评网使用了css字体加密,所以使用fontTools和字体工具解析字体文件,得到明文和暗文的对应关系; 4.根据对应关系替换原网页的内容,抓取所需信息; 5.根据数据内容设计并创建数据库表,保存数据到数据库。

0
2020-04-23 15:10
更新于: 2020-04-23 浏览: 755