




个人介绍
我是程序员客栈的AllenZhou,一名数据开发工程师/数据分析师;
我担任过新讯数字科技有限公司的数据分析师和数据开发工程师;
负责过沉默客户运营、车主识别、电信反诈等项目的分析和开发;
熟练使用Python、Spark、Scala、Hive,熟悉机器学习;
如果我能帮上您的忙,请点击“立即预约”。
工作经历
2021-02-22 -至今新讯数字科技有限公司高级数据库工程师
主要负责为通信运营商提供技术服务,前期主要负责数据分析项目,分析项目问题产出分析报告,建立模型等工作;目前转型负责spark开发、hive开发;
教育经历
2016-06-15 - 2020-06-15南宁师范大学计算机科学与技术本科
技能

1.背景是项目工作上需要每天定期从hive(TB级)中提取目标数据的上百条字段后人工筛查后根据相应格式和字段逻辑填报;源程序运行时长已超过2小时,若再增加相关计算和筛选逻辑会延长执行时间且效率低下,因此使用python定制化该工具; 2.原来通过人工进行填报耗时在1小时左右,通过定制化程序生成结果文件仅需10秒;


1.整个项目分为数据爬取存储:使用python编写爬虫程序从某二手房网站爬取相关数据并存储至本地mysql;数据处理,对不规则化数据进行编码,特殊数据进行数值转化,归一化等处理;特征工程,根据实际预测场景结合外部数据(如地图API提供的POI信息等)分析构建有效特征,保留有效特征;模型构建,尝试多个匹配当前任务数据类型和预测目的的基础模型进行测试;优化调参,通过spark高效完成模型自动化调参,自动选择最优参数;模型集成,通过投票、得分等方式对较优模型进行集成学习等几个方面。 2.该项目最终可对二手房房价进行预测,最终预测结果偏差在500元/平方米上下。
