个人介绍
我是程序员的张先生,一名大数据开发工程师
我毕业于赤峰工业职业技术学院,没有实习经验,但是自学过尚硅谷电商离线数仓6.0
擅长于大数据开发(熟悉hadoop生态,并按照视频动手搭建过一次离线数仓),也会一点数据分析(熟悉python的numpy,pandas,matplotlib库,机器学习);
如果能帮上忙,请点击立即预约或发布需求
工作经历
2024-08-01 -至今无公司大数据开发
没有实现经验,但自学过离线数仓 • 项目概括: o 一.数据同步: 用户行为日志采集 日志文件(json)->flume(自定义拦截器判断格式是否符合json)->kafka->flume(需要自定义拦截器解决零点漂移问题)->hdfs Mysql业务数据 每日全量->datax(数据量少使用datax,数据量大使用sqoop更好)->hdfs 增量(首日全量)Maxwell(支持断点续传且可以全量,需要开启mysql binlog)->kafka->flume->hdfs o 二.离线数仓(采用hive on spark的方式,因为hive兼容性更好,都创建外部表,防止误删) ODS(对接hdfs,相当于数据源(全量和增量表),采用行式存储,gzip压缩,需分区,由于mysql将’’设为null,且datax不能自动转换,所以 建表时要NULL DEFINED AS '') DIM(公共维度层,建立维度表(全量和拉链表),orc列式存储,snappy压缩,需分区) DWD(明细数据层,建立行为表(事务事实表,周期快照事实表,【数据变化量不大或数据
教育经历
2023-09-01 - 2025-09-01赤峰工业职业技术学院大数据开发专科
竞赛与奖项 • 金砖大数据与机器学习国赛 荣誉: 获得优胜奖和国三 • 金砖大数据与机器学习省赛 荣获:省二和省一 • 全国职业技能大赛商务软件设计国赛 荣誉: 获得优胜奖 • 大数据应用开发省赛 荣获:省三