个人介绍
了解scrapy,scrapy-redis框架,能用scrapy-redis搭建分布式爬虫,linux下cron定时启动爬虫
熟悉使用mysql,了解Mysql索引,事务,约束,多表连接查询,子查询,备份等;了解redis数据库
熟练linux命令,会用rsync进行数据同步,能用grep、sed、awk等命令或编写python、shell脚本处理数据,会使用kettle进行数据抽取等操作
会python django,java springmvc开发web项目;会开发android app
工作经历
2018-05-01 -至今眼控科技爬虫
1、通过爬取各个网站数据,或者线下采集各种需求数据,再将数据按照统一格式进行清洗,使用比较多的方式通过Python脚本或者linux脚本及命令进行数据批量处理,数据处理好后交个标注人员对数据进行标注再二次清洗,数据达到算法要求再统一分批次入库
教育经历
2011-09-01 - 2014-06-01九江学院汽车制造专科
当过学习委员,参加过各种学校活动,拿过2次奖学金
技能
1、对需要爬取的数据进行分析,思考解决爬虫中的难点问题,因数据量较多,使用多台主机部署爬虫 2、使用requests的post方法请求世纪佳缘登录页面,使用RequestsCookieJar方法获取动态cookie 3、构建代理IP池,使用BeautifulSoup模块处理数据,用find、find_all方法对世纪佳缘数据进行提取,解析 3、通过get请求的json数据进行解析提取百合网数据 4、使用正则,xpath,re模块提取有缘网数据 5、把爬取的数据通过os模块写入到本地csv文件,对图片下载耗时操作采用多线程将图片下载到本地,并把图片命名关联到csv数据
1、了解数据需求,分析网页发现部分数据使用js动态加载,并使用伪元素加入混淆 2、根据js逆向策略,找出对应的js文件从最后一步找起,缺啥找啥,把需要的函数找到使用PyV8库对js作解析,最终找出数据的映射关系 3、结合数据的映射,使用requests,正则,xpath提取网页需要的数据 4、通过pymysql模块将爬取的数据保存到mysql数据库 5、使用logging日志模块进行爬虫监控,并根据日期输出到不同的log文件
1、分析网页数据,考虑到数据量较多,采用scrapy-redis搭建分布式爬取数据,此框架搭建分布式比较方便且爬取更快,而且也实现了数据去重、增量处理 2、初次使用静态cookie进行数据爬取,后因静态cookie的时效性,采用了重写spider中的start_requests方法,并使用selenium、PhantomJS无界面模拟登录获取动态cookie信息 3、使用BeautifulSoup模块处理数据,用css选择器对数据进行抽取,解析 4、构建User-Agent池,开启Middleware中间件使用UA伪装浏览器 5、考虑到单个用户爬取频率过高,采用注册多个用户同时进行爬取