个人介绍
基于
阿里云MaxCompute
Hadoop Hive+Shell+sqoop+azkaban
Python + Dash/pyecharts
Oracle+Sql
的BI开发 ,及数据分析挖掘工作。
如果您的公司还没有类似 Tableau,帆软,FineBI 等工具,我可以开发一个具有BI软件功能的提供给您的公司。
如果采购了BI软件,那么也可以用Python 开发出一些 BI软件暂时没法比拟的, 交互更强的 数据大屏,驾驶舱,数据看板等分析类专题。
工作经历
2018-11-01 -2022-04-19车服公司数据分析
基础工作: ● 基于阿里云的数据开发,数据挖掘工作 参与项目: ● 供应链智能补货项目 ● 运营中心专题看板 ● 供应链智能补货项目算法设计优化【周转率提升】 ● 公司B端到汽车修理厂的智慧门店运营一期 ● 供应链仓储类物流类特色监控看板【仓库作业,物流时效,仓库人效,结合WMS系统的一些异常订单监控,库存库龄,效期的一些分析】 ● 用户客户画像 开发工具: ● 阿里云系列产品 + python
教育经历
2003-02-04 - 2006-08-09三联学院计算机应用技术专科
学业期间,通过考试拿过多项证书
技能
需求计划: ● 利用公司业务线中的采购,售出,库存,物流 数据 构建算法库 ● 针对不同物料,以及服务对象,仓库,GMV目标等信息,在算法库中选择最优的销量预测 ● 这是一个标准的数据挖掘类项目,主要工具用到【阿里云,python 的sklearn,pytorch ,Xgboost模块】
工作描述: (一)中地集团(付融宝):参与数据仓库开发,数据引入,清洗,按照需求对数据维度切分,依据临时统计的业务报表使用情况,设计合理的中间层,宝贝金融数据报表开发及固化,相关需求整理, 业务场景专题分析,为产品推广,用户行为刺激/引导 公司相关活动提供数据依据。 主要工作: 1、对部门所有掌握的数据资源进行认知,按照紧急程度做优先级排序,为了保证各部门获取数据的及时性,将优先级高的需求数据接入到 ods层,在 dw 层做清洗以及数据生命周期的控制。 各个业务部门需求临时报表的需求和临时统计,根据底表的使用频率,设计出合理的中间层报表,在中间层的基础上固化成前台报表,提供各业务部门使用,这部分数据落在中间层。 2、 业务场景专题分析,为产品推广,用户行为刺激/引导 公司相关活动提供相应的主题数据,这部分会用到 python 中的一些分类,预测算法。 已经做好的有 :用户画像数据,运营成本分析数据,运营效果分析数据,渠道/引流效果分析数据,财务数据,数据血缘关系 (二)中的集团(麦芽贷):麦芽贷数据资产项目实施。 整理业务需求,数据分层 ODS-DWD-DWS-ADS ,报表开发, hadoop/hbase+hive+sqoop+azkaban 主要工作内容: 1、flume+kafka+(j)storm+Hbase :解析用户*定位信息,联系人信息,*短信的解析,在通过了解的信息输入公司征信模型来判断个人的借贷情况。 2、征信模型迭代调整:采用 python 的相关算法包,对公司购买的三方数据或是网站上爬取分析的数据在或者是政策法规调整,做指标强关联分析,从而对现有模型做评估调整。模型链由基本准入链+反欺诈链+分期提档链 三个主要规则链组成。 第三方数据接入包括: a)芝麻分数据:时间段内接入用户芝麻分值,并归档。 b)宜信平台信息 c)同盾人员名单 d)腾讯人员名单 e)新颜数据 f)葫芦数据。 3、数据资产报表开发:架构采用 hive+impala+sqoop+azkaban 。 大数据资产系统按照业务线分为:运营类报表,预期类报表,催收报表,财务报表,信审报表。 按照产品分为:普惠数据,好信用平台,安心花,鸭梨分期。 按照主题分为:用户行为轨迹,用户画像,预警信息指标,app 埋点数据信息,用户引流数据。 随着集团的子公司产品增多,最近接入了 米粒保险数据,智能投顾的股票 和股指数据等。数据仓库会朝着数据资产方法发展,重新对业务域进行分类 工作内容和计划是按照地域/公共域/客户域/渠道/营销/财务 重新整合
主要工作内容有: 1、资信平台建立: >结合业务, 找上游部门调研,值域、枚举值 的标准化等工作。 >各渠道的数据接口、找研发人员调研。明确接口含义及到 mongodb 的映射及层次关系。 2、数据融合及数据清洗工作: >json 样例字典核对、风控规则的分类、渠道前置规则涉及的指标、报告类及原始类数据的分类处理等。 >数据分层,贴源层、mapping层、 到 标准层、按照资信平台的标准。 > 依据业务部门的风控,按照业务范围,整理好特征表。(例如信用卡数据,划分成卡片层、银行层、用户层等) 3、特征衍生工作。 >按照 不同场景、目标属性、计算方式、时间窗口 等业务要求需要 衍生 出变量。 >利用 python、spark、Sql 工具 ,实现生成特征。 > 筛选特征,入评分卡模型(基于逻辑回归的)。 区分变量的类型,选用合适的分箱方法,考量单调性,计算出 WOE、IV值。 在依据 随机森林等算法 选出强指标。 4、数据监控工作; >按照业务要求对值域、枚举、异常值数据及分布采用告警或阻断操作。并推送通知。 5、第三方数据接入的评测 工作。