1321716120Java-程序员客栈

1月前来过

D级

java开发

杭州

全职 · 800/日 · 17400/月信用正常

工作时间: 工作日20:00-22:00、周末9:00-21:00工作地点: 远程

服务企业: 0家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

三年java开发经验，熟练spring等框架；
熟悉linux部署；
主要从事大数据平台开发，hadooo，spark等；
熟悉redis，kafka的搭建和使用；
会使用python开发，进行数据爬取和处理；
会搭建和使用solr，es的搜索引擎服务。
做过对邮件，pdf，office等文件的内容提前和检索功能；
有开发和搭建ocr服务经验；

2019-07-01 -2021-04-01南京论之语java大数据开发
主要用java后台开发；在linux部署服务，包括kafka，redis，hadooo等擅长对非结构化文件的解析和处理(邮件，pdf，doc文件等) 使用python开发，数据爬取和处理客户现场沟通和整理需求。
2018-06-01 -2019-04-01亚信科技java开发
主要是java后台开发；开发后台管理程序；后台的数据处理，etl开发；按照需求实现分配的任务和功能；梳写开发文档等。

2015-09-06 - 2019-07-01淮南师范学院自动化本科
大学自动化专业，大二就开始学习java，大三在亚信科技实习一年，毕业后从事安全行业的软件开发。

Python

Shell

Kafka

Hadoop

Java

作品

云南省移动流量经营系统

开发环境：IntelliJIdea+Git+Maven+Jdk1.8 运行环境：Linux+Java+Hadoop+Hbase+Hive+Redis 项目描述：采集，梳理，集中移动运营系统中记录的用户业务使用日志数据，对数据进行分类处理，内容分析，挖掘出用户的行为轨迹，分析用户访问互联网内容的类型、频率等行为习惯，分析用户使用*APP的行为特征等，对移动客户进行用户画像，为公司营销策划和各类业务模型报表统计做数据支持。工作描述：  参与“预处理”、“用户行为轨迹增强和内容识别”、“内容分类树梳理平台”用户移动轨迹分析”等模块架构设计、文档编写及编码实现。  “预处理”、“SCA内容分析”等模块在生产环境下的部署、割接、上线，运营监控。  项目设计文档，项目说明文档等文档的编写。技术要点：  将需要去重的数据结果写入Redis,通过LRU策略提高数据库可用性。  使用mapPartitions算子代替map算子减少和数据库的连接。  transform算子在Driver端周期性读Redis数据,通过广播变量发往Executor。

2021-05-01 12:40

深海分析

开发环境：Jdk1.8+Python2.7+Gradle+Git 运行环境：SparkSql+Redis+Oracle+Hive+Hbase 项目描述：深海分析是一个可视化的大数据建模分析平台。可根据业务需要通过简单的控件实现各类异构数据源的自主建模分析，基于kettle的二次开发以B/S架构进行前后交互，通过扩展算子支撑业务数据的ETL。工作职责：  参与数据仓库需求分析、分层设计。  设计和开发新算子，支撑业务，如强同行算子，弱同行算子，同住算子等。  设计和配置模型对数据ETL输出到hive,外部资源库和文件。  写定时脚本任务，建立hive表和写sparksql程序对数据进行分析统计。技术要点：  基于kettle运用sparkSql开发新的算子，实现强同行，弱同行，和同住等业务算子。  从Hive库、外部数据库或文件获取数据，通过在web配置模型，将分析结果输出到Hive库、外部数据库或文件。  整合sparksql和hive持久化文件与表的关系到hive中。  使用广播变量+map算子的操作，解决shuffle数据倾斜问题。  hive数据仓库设计，主题抽取，维度分析，分析历史数据，最后把每天分析的结果存放到hbase中，供给页面进行查询

2021-05-01 12:34

智能全文

开发环境：Jdk1.8+Python2.7+Gradle+Maven+Ant+Git 运行环境：Hadoop+Spark+Kafka+Ceph+Oracle+Solr 项目描述：智能全文系统是一个非结构化数据分析和检索系统，基于apachetika和自义定插件提取结构化信息，将非结构化文件和结构化数据关联，通过solr实现毫秒检索。工作职责：  负责项目主要功能的设计和开发包括关键词，IM数据处理，文档翻译等  杭州,上海,广东现场项目的规划和部署  代码重构和coereview  系统版本规划,迭代和维护工作技术要点：  基于apachetika扩展注册parser，集成语种识别，敏感信息检测和检智能邮件解析等功能。  开发Spark程序对接汇智IM数据，结构化结果入库solr，非结文件存储ceph分布式文件系统，两者关联形式展示有价值的聊天数据。  结合springbatch+apachetika程序作为消费者实时批处理kafka中的记录，手动维护offset实现精准一次消费。  计算文件md5存储和查询redis中实现文件上传去重功能。  Apachetika提取非结文件的结构化信息，根据数据类型合理建立索引，入solr检索。

2021-05-01 12:31

更新于: 2021-05-01 浏览: 297

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐