个人介绍
熟悉linux部署;
主要从事大数据平台开发,hadooo,spark等;
熟悉redis,kafka的搭建和使用;
会使用python开发,进行数据爬取和处理;
会搭建和使用solr,es的搜索引擎服务。
做过对邮件,pdf,office等文件的内容提前和检索功能;
有开发和搭建ocr服务经验;
工作经历
2019-07-01 -2021-04-01南京论之语java大数据开发
主要用java后台开发; 在linux部署服务,包括kafka,redis,hadooo等 擅长对非结构化文件的解析和处理(邮件,pdf,doc文件等) 使用python开发,数据爬取和处理 客户现场沟通和整理需求。
2018-06-01 -2019-04-01亚信科技java开发
主要是java后台开发; 开发后台管理程序; 后台的数据处理,etl开发; 按照需求实现分配的任务和功能; 梳写开发文档等。
教育经历
2015-09-06 - 2019-07-01淮南师范学院自动化本科
大学自动化专业,大二就开始学习java,大三在亚信科技实习一年,毕业后从事安全行业的软件开发。
技能
开发环境:IntelliJIdea+Git+Maven+Jdk1.8 运行环境:Linux+Java+Hadoop+Hbase+Hive+Redis 项目描述:采集,梳理,集中移动运营系统中记录的用户业务使用日志数据,对数据进行分 类处理,内容分析,挖掘出用户的行为轨迹,分析用户访问互联网内容的类型、 频率等行为习惯, 分析用户使用*APP的行为特征等, 对移动客户进行用户画 像,为公司营销策划和各类业务模型报表统计做数据支持。 工作描述: 参与“预处理”、“用户行为轨迹增强和内容识别”、“内容分类树梳理平台”用 户移动轨迹分析”等模块架构设计、文档编写及编码实现。 “预处理”、“SCA内容分析”等模块在生产环境下的部署、割接、上线,运营监 控。 项目设计文档,项目说明文档等文档的编写。 技术要点: 将需要去重的数据结果写入Redis,通过LRU策略提高数据库可用性。 使用mapPartitions算子代替map算子减少和数据库的连接。 transform算子在Driver端周期性读Redis数据,通过广播变量发往Executor。
开发环境:Jdk1.8+Python2.7+Gradle+Git 运行环境:SparkSql+Redis+Oracle+Hive+Hbase 项目描述: 深海分析是一个可视化的大数据建模分析平台。 可根据业务需要通过简单的控件 实现各类异构数据源的自主建模分析,基于kettle的二次开发以B/S架构进行 前后交互,通过扩展算子支撑业务数据的ETL。 工作职责: 参与数据仓库需求分析、分层设计。 设计和开发新算子,支撑业务,如强同行算子,弱同行算子,同住算子等。 设计和配置模型对数据ETL输出到hive,外部资源库和文件。 写定时脚本任务,建立hive表和写sparksql程序对数据进行分析统计。 技术要点: 基于kettle运用sparkSql开发新的算子,实现强同行, 弱同行,和同住等业务算 子。 从Hive库、外部数据库或文件获取数据,通过在web配置模型,将分析结果输出 到Hive库、外部数据库或文件。 整合sparksql和hive持久化文件与表的关系到hive中。 使用广播变量+map算子的操作,解决shuffle数据倾斜问题。 hive数据仓库设计,主题抽取,维度分析,分析历史数据,最后把每天分析的结 果存放到hbase中,供给页面进行查询
开发环境:Jdk1.8+Python2.7+Gradle+Maven+Ant+Git 运行环境:Hadoop+Spark+Kafka+Ceph+Oracle+Solr 项目描述:智能全文系统是一个非结构化数据分析和检索系统,基于apachetika和自义定 插件提取结构化信息,将非结构化文件和结构化数据关联,通过solr实现毫秒 检索。 工作职责: 负责项目主要功能的设计和开发包括关键词,IM数据处理,文档翻译等 杭州,上海,广东现场项目的规划和部署 代码重构和coereview 系统版本规划,迭代和维护工作 技术要点: 基于apachetika扩展注册parser,集成语种识别,敏感信息检测和检智能邮件解析 等功能。 开发Spark程序对接汇智IM数据,结构化结果入库solr,非结文件存储ceph分布式 文件系统,两者关联形式展示有价值的聊天数据。 结合springbatch+apachetika程序作为消费者实时批处理kafka中的记录,手动维 护offset实现精准一次消费。 计算文件md5存储和查询redis中实现文件上传去重功能。 Apachetika提取非结文件的结构化信息,根据数据类型合理建立索引,入solr检索。