kevin_pengpengPython-程序员客栈

1月前来过

D级

数据分析师

成都

全职 · 500/日 · 10875/月信用一般

工作时间: 工作日11:30-24:00、周末08:00-22:00工作地点: 远程

服务企业: 0家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

四川纽睿科技有限公司

数据分析师

2020.12-至今

北京安信信通科技有限公司

Java

2020.09-2020.11

北京智游网安科技有限公司

数据分析

2018.11-2020.06

男 | 年龄：29岁 | 籍贯：成都 | 共产党员 |

7年工作经验 |

个人优势

认真做事，用行动和结果证明一切

工作经历

1. 负责迁移机构使用的旧系统的数据：

1. 使用ETL程序对数据进行处理，并将处理后的数据导入到睿美云系统中。从就职至今完成了300+机构数据迁移工作，最大机构

存量客户100W+，以及对应的业务数据

2. 处理旧系统爬虫任务：

1. 因需要更换系统的客户得老系统无法提供对应的客户以及业务数据，只能通过爬虫的形式进行获取数据，编写爬虫代码，分析客

户系统并获取客户数据。工作至今已分析7款医美行业系统，并实现标准化的爬虫代码，可以实现一键获取客户需要导入到新系统

的数据信息

3. 处理日常的机构数据问题：

1. 在机构使用睿美云系统时会对数据进行调整，以及自己机构数据需要更具需求处理对应数据，例如：对错误订单的标记，对客户

积分的计算，对客户成长值的计算，处理客户标签，处理客户归属咨询师/报备人，专属客服，批量修改客户渠道，工作至今为公

司提供大量的标准化处理数据流程文献。让数据处理可以标准化的操作从而降低数据出错风险。

4. 处理系统bug/维护ETL迁移代码/处理医美客户照片存储（使用七牛云/阿里云）/优化爬虫代码：

1. 因为睿美云saas系统快速的迭代开发，需要etl/爬虫系统对睿美云进行适配，代码需要日常维护工作

2. 接受客户反馈的提供bug，处理系统bug

3. 医美客户有大量的照片存储需求，需要将客户的照片数据存储到云端空间，并将照片和对应客户进行关联。

贵州省山地紧急医学救援指挥调度信息系统：

政府应急救援系统，主要对已有代码进行维护升级，以及新功能按客户需求的编码、项目交付期间测试修改项目代码bu

g。

技术要点：SpringBoot+mybatis-plus+maven

项目功能点：该项目有两个模块：1.紧急医学救援指挥调度2.院前院内协同云平台，该公司负责紧急医学救援指挥调度板

块。主要是对应急事件的处理流程、上下级领导审批、资源调度、应急事件的跟踪、视频记录、gis一张图（地图展示全

省的资源信息、以及应急事件信息等）

在该公司期间支撑移动应用大数据云平台。结合产品的需求规划进行开发。大数据相关开源组件的使用

技术要点：

大数据分析对大量数据进行统计分析，分为三个部分：入库部分、统计分析部分、数据访问部分，入库部分是对源数据进行采集加

工导入数据仓库，统计分析部分是将数据仓库的数据进行统计分析并将结果导出到传统数据库，数据访问部分是提供数据明细信息

访问的接口的服务。

使用flume+kafka+storm+elasticsearch+spark组件完成数据的处理入库。以及对存量代码的维护。成都爱迪科信科技有限公司

数据开发

2018.01-2018.09

项目描述：中国移动互联网市场应用数达到 400w+款，随着移动应用数量增加，随之而来的是源源不断的移动互联网犯罪行为。

国家层面上，近几年着重关注移动应用市场，筹备并研究移动应用市场监管方案。

由于移动应用发布渠道繁多且没有统一上线标准，为监管带来诸多问题：

移动应用发布渠道难以做到全覆盖，渠道维护不及时。

存量移动应用下载消耗资源太大，增量移动应用获取不及时。

移动应用安全问题纵向深度、横向广度分析没有统一、专业的检测标准。

对于监管机构来说，如何帮助机构扩大监测范围、统一检测标准，建立针对移动应用监管周期中每个阶段完善的应对方案体系才是

解决移动应用监管问题的关键。通过全量应用爬取与安全检测，在最短时间内帮助机构掌握移动应用市场安全态势，并持续监测增

量应用安全情况是本技术解决的主要问题。

工作职能

数据清洗：

技术框架：springmvc、spring、mybatis、dubbo、log4j

基础服务：zookeeper、mysql、redis

技术实现：

数据处理部分采用分布式架构，将各个类型的数据处理节点统一管理并进行资源分配，有效的支撑大量数据的分析、处理、apk

检测。数据存储最终为 mysql 数据库，有效保证数据的可用性，采用分库分表的机制支撑大量数据的存储需求。在数据处理过程

中采用 redis 对临时数据进行缓存，以及记录数据处理进度，有效的协调多个节点并发执行。

最终通过log4j 日志框架将处理后的数据写入到日志文件，可以灵活的按照时间维度和文件大小维度对日志进行拆分

数据分析统计

1. 入库部分：

源数据中的存量数据和实时处理采用 flume+kafka+storm+elasticsearch 大数据生态组建组合来实现，其中flume 是负责将指定

目录下的日志文件中的日志内容采集并发布到kafka 指定的频道(dianyou_wangjian)中，storm 负责从 kafka 的指定频道

(dianyou_wangjian)中实时消费日志数据，然后对日志数据进行各种处理：新增、修改、追加，并形成最终的处理结果，最后将

处理的结果批量导入到 elasticsearch(ods_wj_apk_index)数据库中。然后用 Spark 从elasticsearch(ods_wj_apk_index)中获

取数据，从 redis 中获取场景的筛选条件，筛选出的数据加上场景名称，把结果按场景名称，采用先删后存的方式存入

elasticsearch(ods_wj_scenes_detail)中。

2. 统计分析部分：

自定义场景分析采用 elasticsearch+spark 大数据生态组建组合来实现，其中 elasticsearch 作为统计计算的数据源头，spark 从

elasticsearch 读取指定的数据(ods_wj_scenes_detail/docs),抽取统计的维度转换成dataFrame，通过 sparksql 统计综合分析

的各个指标，并形成最终的处理结果，最后将处理的结果导入到 mysql 数据库中，渠道详细统计/企业信息详细统计采用

elasticsearch+spark 大数据生态组建组合来实现，其中 elasticsearch 作为统计计算的数据源头，spark 从elasticsearch 读取

指定的数据(ods_wj_apk_index/docs),抽取统计的维度转换成 dataFrame，通过 sparksql 统计综合分析的各个指标，并形成最

终的处理结果，最后将处理的结果导入到 mysql 数据库中

3. 数据访问部分:

服务端程序通过springboot 集成elasticsearch，为平台提供数据的检索服务。

4.数据分析数据输出：

通过将清洗后的移动应用数据，进行区域漏洞、应用漏洞危险等级等各个指标的对比。以报告的形式输出给监管机构、网监、网安

等主要使用的数据处理的工具为python、Excel等

对广告推广的实时的处理架构

1. 对集群的搭建，CDH商业集群的搭建。

2. 主要负责利用好Flume组件完成数据的采集功能，对用户行为的采集

3. 利用Spark计算框架，对数据进行按需求进行处理

4. 对已完成的编程模块进行测试成都爱迪科信科技有限公司

数据开发

2017.06-2018.09

睿美云-医美saas系统

数据迁移，数据爬虫，数据处理

2020.12-至今

项目名称

后端开发

2020.09-2020.11

5. 对测试人员反馈的Bug进行修复

6. 将发布的程序进行维护处理

在做实习生的时期我的主要的工作职能是：

1.在项目经理的指导下，对项目的需求进行梳理以及理解。 2.在项目经理的指导下，按照项目的需求进行开发。

3.每日编辑开发文档形成开发日报。

4.对项目中的知识进行归纳总结，开发过程中对代码进行测试，以及对bug的处理

5.完成领导安排的各项事务

项目经历

数据迁移工作：

ETL工具由SpringBoot框架开发，项目中主要争对医美洪迈系统和领健系统,其中洪迈系统是更具分析sqlserver数据库数据进行的

数据迁移工作包含模块有：用户部门岗位，渠道及运营媒体，项目及项目分类，物料及物料分类，供应商，物料单位等为基础数

据，客户模块，咨询，订单（订单包含订单划扣，储值，转项，转赠等），报备，回访。

领健系统数据导入是以excel模板数据导入，将数据整理为对应的模板数据，进行数据导入，包含模块有:项目/物料/渠道/运营媒

体/次卡等基础数据导入，客户模块/咨询/预约/报备/回访/订单及订单执行数据导入。该系统为普通的SpringBoot+maven的形

式进行开发，我在工作中主要的职能是持续维护及优化ETL的迁移工具程序代码，以及应对系统迭代支持集团机构管理，公有云机

构管理时的数据迁移代码的升级。

标准化爬虫代码：具体收录了新洪迈web版数据爬虫，领健系统（医美+生美）系统爬虫，有赞，舜顶系统，ekanya（E看牙牙科

系统），牙医管家（牙科系统），美问，光博士，锦衣卫-医美系统。因为在爬虫时是经过机构允许才进行操作爬虫的，所以有机

构提供的账号密码，爬虫模式是以python+flask+request+mongodb 的方式进行接口分析爬虫。使用pandas处理mongodb数

据转化成excel数据输出，照片数据下载到本地并上传到七牛云对应空间（使用七牛云提供的api接口进行完成）。

数据处理：日常数据处理，睿美云的部署模式是私有云+mysql+es的方式进行系统部署运行的，所以我们在日常的数据处理中是

直接对mysql数据库中数据进行操作，对客户的积分/成长值/订单/划扣/客户信息等根据客户需求操作数据库数据。

中国移动互联网市场应用数达到 400w+款,随着移动应用数量增加,随之而来的是源源不断的移动互联网犯

罪行为。国家层面上,近几年着重关注移动应用市场,筹备并研究移动应用市场监管方案。

由于移动应用发布渠道繁多且没有统一上线标准,为监管带来诸多问题:

• 移动应用发布渠道难以做到全覆盖,渠道维护不及时。

• 存量移动应用下载消耗资源太大,增量移动应用获取不及时。

• 移动应用安全问题纵向深度、横向广度分析没有统一、专业的检测标准。

对于监管机构来说,如何帮助机构扩大监测范围、统一检测标准,建立针对移动应用监管周期中每个阶段完善的应对方案

体系才是解决移动应用监管问题的关键。通过全量应用爬取与安全检测,在最短时间内帮助机构掌握移动应用市场安全态

势,并持续监测增量应用安全情况是本技术解决的主要问题。

工作职能

数据清洗:

技术框架:springmvc、spring、mybatis、dubbo、log4j

基础服务:zookeeper、mysql、redis

技术实现:移动应用大数据云平台

数据分析

2018.11-2020.06

数据处理部分采用分布式架构,将各个类型的数据处理节点统一管理并进行资源分配, 有效的支撑大量数据的分析、处

理、apk 检测。数据存储最终为 mysql数据库,有效保证数据的可用性,采用分库分表的机制支撑大量数据的存储需

求。在数据处理过程中采用 redis 对临时数据进行缓存,以及记录数据处理进度,有效的协调多个节点并发执行。

最终通过log4j 日志框架将处理后的数据写入到日志文件,可以灵活的按照时间维度和文件大小维度对日志进行拆分

数据分析统计

1. 入库部分:

源数据中的存量数据和实时处理采用 flume+kafka+storm+elasticsearch 大数据生态组建组合来实现,其中flum

e 是负责将指定目录下的日志文件中的日志内容采集并发布到kafka 指定的频道(dianyou wangjian)中,storm 负责

从 kafka 的指定频道(dianyou wangjian)中实时消费日志数据,然后对日志数据进行各种处理:新增、修改、追加,并

形成最终的处理结果, 最后将处理的结果批量导入到 elasticsearch(ods wj apk index)数据库中。然后用 spark 从el

asticsearch(ods wj apk index)中获取数据,从 redis 中获取场景的筛选条件,筛选出的数据加上场景名称,把结果

按场景名称,采用先删后存的方式存入elasticsearch(ods wj scenes detail)中。

2. 统计分析部分:

自定义场景分析采用 elasticsearch+spark 大数据生态组建组合来实现,其中 elasticsearch 作为统计计算的数据源

头,spark 从 elasticsearch 读取指定的数据(ods wj scenes detail/docs),抽取统计的维度转换成dataframe,通

过 sparksql 统计综合分析的各个指标,并形成最终的处理结果,最后将处理的结果导入到 mysql 数据库中,渠道详

细统计/企业信息详细统计采用 elasticsearch+spark 大数据生态组建组合来实现,其中 elasticsearch 作为统计计算的

数据源头,spark 从elasticsearch 读取指定的数据(ods wj apk index/docs),抽取统计的维度转换成 dataframe,通

过 sparksql 统计综合分析的各个指标,并形成最终的处理结果,最后将处理的结果导入到 mysql 数据库中

3. 数据访问部分:

服务端程序通过springboot 集成elasticsearch,为平台提供数据的检索服务。

4.数据输出：向监管机构（教育部、网监、网安）以及合作机构提供数据支撑、安全分析报告等工作

具体使用的分析工具：python的pandas数据处理、Excel的透视边操作等

项目描述：中国移动互联网市场应用数达到 400w+款，随着移动应用数量增加，随之而来的是源源不断的移动互联网犯罪行为。

国家层面上，近几年着重关注移动应用市场，筹备并研究移动应用市场监管方案。

由于移动应用发布渠道繁多且没有统一上线标准，为监管带来诸多问题：

移动应用发布渠道难以做到全覆盖，渠道维护不及时。

存量移动应用下载消耗资源太大，增量移动应用获取不及时。

移动应用安全问题纵向深度、横向广度分析没有统一、专业的检测标准。

对于监管机构来说，如何帮助机构扩大监测范围、统一检测标准，建立针对移动应用监管周期中每个阶段完善的应对方案体系才是

解决移动应用监管问题的关键。通过全量应用爬取与安全检测，在最短时间内帮助机构掌握移动应用市场安全态势，并持续监测增

量应用安全情况是本技术解决的主要问题。

工作职能

数据清洗：

技术框架：springmvc、spring、mybatis、dubbo、log4j

基础服务：zookeeper、mysql、redis

技术实现：

数据处理部分采用分布式架构，将各个类型的数据处理节点统一管理并进行资源分配，有效的支撑大量数据的分析、处理、apk

检测。数据存储最终为 mysql 数据库，有效保证数据的可用性，采用分库分表的机制支撑大量数据的存储需求。在数据处理过程

中采用 redis 对临时数据进行缓存，以及记录数据处理进度，有效的协调多个节点并发执行。

最终通过log4j 日志框架将处理后的数据写入到日志文件，可以灵活的按照时间维度和文件大小维度对日志进行拆分

数据分析统计

1. 入库部分：电子科技大学成都学院

大专

计算机应用技术

2015-2018

源数据中的存量数据和实时处理采用 flume+kafka+storm+elasticsearch 大数据生态组建组合来实现，其中flume 是负责将指定

目录下的日志文件中的日志内容采集并发布到kafka 指定的频道(dianyou_wangjian)中，storm 负责从 kafka 的指定频道

(dianyou_wangjian)中实时消费日志数据，然后对日志数据进行各种处理：新增、修改、追加，并形成最终的处理结果，最后将

处理的结果批量导入到 elasticsearch(ods_wj_apk_index)数据库中。然后用 Spark 从elasticsearch(ods_wj_apk_index)中获

取数据，从 redis 中获取场景的筛选条件，筛选出的数据加上场景名称，把结果按场景名称，采用先删后存的方式存入

elasticsearch(ods_wj_scenes_detail)中。

2. 统计分析部分：

自定义场景分析采用 elasticsearch+spark 大数据生态组建组合来实现，其中 elasticsearch 作为统计计算的数据源头，spark 从

elasticsearch 读取指定的数据(ods_wj_scenes_detail/docs),抽取统计的维度转换成dataFrame，通过 sparksql 统计综合分析

的各个指标，并形成最终的处理结果，最后将处理的结果导入到 mysql 数据库中，渠道详细统计/企业信息详细统计采用

elasticsearch+spark 大数据生态组建组合来实现，其中 elasticsearch 作为统计计算的数据源头，spark 从elasticsearch 读取

指定的数据(ods_wj_apk_index/docs),抽取统计的维度转换成 dataFrame，通过 sparksql 统计综合分析的各个指标，并形成最

终的处理结果，最后将处理的结果导入到 mysql 数据库中

3. 数据访问部分:

服务端程序通过springboot 集成elasticsearch，为平台提供数据的检索服务。

4.数据分析数据输出：

通过将清洗后的移动应用数据，进行区域漏洞、应用漏洞危险等级等各个指标的对比。以报告的形式输出给监管机构、网监、网安

等主要使用的数据处理的工具为python、Excel等

教育经历

专业技能

mysql，java，python，mongodb，mybatis，maven，SpringBoot

兴趣爱好

看电影，自驾旅行，露营，看书

2020-12-01 -至今四川纽睿科技有限公司数据分析师已认证
四川纽睿科技有限公司数据分析师 2020.12-至今北京安信信通科技有限公司 Java 2020.09-2020.11 北京智游网安科技有限公司数据分析 2018.11-2020.06 男 | 年龄：28岁 | 籍贯：成都 | 共产党员 | 7年工作经验 | 求职意向：数据开发 | 期望城市：成都个人优势认真做事，用行动和结果证明一切工作经历 1. 负责迁移机构使用的旧系统的数据： 1. 使用ETL程序对数据进行处理，并将处理后的数据导入到睿美云系统中。从就职至今完成了300+机构数据迁移工作，最大机构存量客户100W+，以及对应的业务数据 2. 处理旧系统爬虫任务： 1. 因需要更换系统的客户得老系统无法提供对应的客户以及业务数据，只能通过爬虫的形式进行获取数据，编写爬虫代码，分析客户系统并获取客户数据。工作至今已分析7款医美行业系统，并实现标准化的爬虫代码，可以实现一键获取客户需要导入到新系统的数据信息 3. 处理日常的机构数据问题： 1. 在机构使用睿美云系统时会对数据进行调整，以及自己

2015-09-01 - 2018-06-01电子科技大学成都学院计算机科学与技术专科已认证

普通话

Python

MySQL

MongoDB

爬虫

更新于: 02-10 浏览: 39

个人介绍

工作经历

教育经历

语言

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐

个人介绍

工作经历

教育经历

语言

技能

相似推荐 换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐

相似推荐换一批