个人介绍
熟悉网络通信协议(TCP/IP、UDP、HTTP);
熟练django,flask框架进行前后端分离开发;
熟练使用scrapy框架进行网络爬虫开发,熟悉分布式爬虫;
能够使用python多进程,多协程,多线程对相应业务进行性能提升;
了解tensorflow神经网络框架,能搭建简单神经网络,掌握线性回归,梯度下降,神经网络的前向传播和反向传播及图像处理等技术;
熟悉多进程、多线程、协程编程技术,熟悉Socket网络编程,HTTP,TCP/ UDP等网络数据传输协议,进程间通信等;
熟悉 MySQL、Redis、Postgres、ClickHouse、ES等数据库,应用于开发流程;
熟练使⽤git进⾏项⽬管理及版本控制,熟悉项⽬开发流程;
熟悉airflow,filebeat,logstash,Shell脚本,区块链基础知识
工作经历
2019-08-01 -2020-08-01博拉网络股份有限公司python爬虫工程师
项目名称:闪电车情(www.che007.com) 业务背景:针对目前汽车品牌众多,对于消费者在各汽车品牌选择的指标进行大数据分析,它由全新一代大数据生态技术+AI技术驱动,让海量数据聚合,产生价值裂变,让车企、媒体、研究院等用户可以实时从多渠道、海量信息中清晰了解消费者心声 工作职责:面向全网进行汽车数据抓取,其中主要针对汽车之家、今日***、懂车帝等媒体进行数据抓取;通过调研网站结构及其反爬机制,对指定网站进行爬虫脚本开发,并针对反爬机制进行破解,如:js加密,signature参数加密,特定编码文件,IP访问限制等。针对不同情况使用不同破解方法。 遇到问题及解决方案: 汽车之家:针对该类网站,反爬机制主要有ip限制、请求头验证及字体编码,针对以上几种反爬机制,采取的解决方案为代理ip池,构建协议请求头池,根据该网站特定编码文件进行字体解码; 抖音:通过调研,在该类数据中反爬主要为请求协议中增加了加密验证参数,针对这一情况解决方案为通过fiddler抓包使用中间人攻击方式,获取接口中参数的生成方式,通过逆向编译app源文件进行加密方法提取,并通过python实现加密过程;
教育经历
2014-09-01 - 2018-06-01重庆工商大学电力系统及其自动化本科
专业为自动化,学习学习电气自动化相关专业知识
技能
项目描述:将线上所有正式运行的airflow及server(ES,ClickHouse等)服务进行监控 项目职责:负责该项目中架构及前后端代码编写,前端采用table表格及部分功能性开关,通过shell脚本定时检测服务运行状态,发送给Django后端保存运行状态; airflow监控部分则是通过爬虫方法实时获取airflow运行状态,并爬取出失败的Dag及最后一次运行失败的task及时间,交由前端展示。 技术栈:airflow,Redis,Agent,HTML,Shell
业务背景:针对目前汽车品牌众多,对于消费者在各汽车品牌选择的指标进行大数据分析,它由全新一代大数据生态技术+AI技术驱动,让海量数据聚合,产生价值裂变,让车企、媒体、研究院等用户可以实时从多渠道、海量信息中清晰了解消费者心声 工作职责:面向全网进行汽车数据抓取,其中主要针对汽车之家、今日头条、*公众号、懂车帝等媒体进行数据抓取;通过调研网站结构及其反爬机制,对指定网站进行爬虫脚本开发,并针对反爬机制进行破解,如:js加密,signature参数加密,特定编码文件,IP访问限制等。针对不同情况使用不同破解方法。 遇到问题及解决方案: 汽车之家:针对该类网站,反爬机制主要有ip限制、请求头验证及字体编码,针对以上几种反爬机制,采取的解决方案为代理ip池,构建协议请求头池,根据该网站特定编码文件进行字体解码; 抖音:通过调研,在该类数据中反爬主要为请求协议中增加了加密验证参数,针对这一情况解决方案为通过fiddler抓包使用中间人攻击方式,获取接口中参数的生成方式,通过逆向编译app源文件进行加密方法提取,并通过python实现加密过程; 技术栈:selenium,scrapy,js,Linux, ES,mysql,redis