proginn2152268725Python-程序员客栈

8天前在线

D级

爬虫

上海

全职 · 400/日 · 8700/月信用正常

工作时间: 工作日15:00-21:00、周末9:00-17:00工作地点:

服务企业: 36家累计提交: 4工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

熟悉requests，selenium，BeautifulSoup等模块处理网页数据，熟练使用正则表达式，xpath，css选择器提取网页元素，熟悉使用selenium模拟登陆，pyv8进行js解析
了解scrapy，scrapy-redis框架，能用scrapy-redis搭建分布式爬虫，linux下cron定时启动爬虫
熟悉使用mysql，了解Mysql索引，事务，约束，多表连接查询，子查询，备份等；了解redis数据库
熟练linux命令，会用rsync进行数据同步，能用grep、sed、awk等命令或编写python、shell脚本处理数据，会使用kettle进行数据抽取等操作
会python django，java springmvc开发web项目；会开发android app

2018-05-01 -至今眼控科技爬虫
1、通过爬取各个网站数据，或者线下采集各种需求数据，再将数据按照统一格式进行清洗，使用比较多的方式通过Python脚本或者linux脚本及命令进行数据批量处理，数据处理好后交个标注人员对数据进行标注再二次清洗，数据达到算法要求再统一分批次入库

2011-09-01 - 2014-06-01九江学院汽车制造专科
当过学习委员，参加过各种学校活动，拿过2次奖学金

Python

Java

作品

世纪佳缘项目

1、对需要爬取的数据进行分析，思考解决爬虫中的难点问题，因数据量较多，使用多台主机部署爬虫 2、使用requests的post方法请求世纪佳缘登录页面，使用RequestsCookieJar方法获取动态cookie 3、构建代理IP池，使用BeautifulSoup模块处理数据，用find、find_all方法对世纪佳缘数据进行提取，解析 3、通过get请求的json数据进行解析提取百合网数据 4、使用正则，xpath，re模块提取有缘网数据 5、把爬取的数据通过os模块写入到本地csv文件，对图片下载耗时操作采用多线程将图片下载到本地，并把图片命名关联到csv数据

2021-05-12 15:41

汽车之家项目

1、了解数据需求，分析网页发现部分数据使用js动态加载，并使用伪元素加入混淆 2、根据js逆向策略，找出对应的js文件从最后一步找起，缺啥找啥，把需要的函数找到使用PyV8库对js作解析，最终找出数据的映射关系 3、结合数据的映射，使用requests，正则，xpath提取网页需要的数据 4、通过pymysql模块将爬取的数据保存到mysql数据库 5、使用logging日志模块进行爬虫监控，并根据日期输出到不同的log文件

2021-05-12 15:40

天眼查项目

1、分析网页数据，考虑到数据量较多，采用scrapy-redis搭建分布式爬取数据，此框架搭建分布式比较方便且爬取更快，而且也实现了数据去重、增量处理 2、初次使用静态cookie进行数据爬取，后因静态cookie的时效性，采用了重写spider中的start_requests方法，并使用selenium、PhantomJS无界面模拟登录获取动态cookie信息 3、使用BeautifulSoup模块处理数据，用css选择器对数据进行抽取，解析 4、构建User-Agent池，开启Middleware中间件使用UA伪装浏览器 5、考虑到单个用户爬取频率过高，采用注册多个用户同时进行爬取

2021-05-12 15:41

更新于: 2021-05-09 浏览: 1683

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐