全部动态开源项目源文件源码产品系统 Java Python C/C++PHP C#TypeScript Go Swift 更多

Scala

Scala 是一门类 Java 的编程语言，它结合了面向对象编程和函数式编程。Scala 的设计目的是要和两种主流面向对象编程语言 Java 和 C#实现无缝互操作，这两种主流语言都非纯面向对象。Scala运行在Java虚拟机上，并兼容现有的Java程序。Scala 源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库。

规则化数据分析引擎

1、项目针对数据分析中数据清洗、特征提取、统计分析常用的计算方法进行了固化，面向分析人员以规则化的语法形式实现快速的数据分析和结果输出，使用户拜托了定制化、重复性的代码开发工作。 2、在本项目中，个人首先完成了规则化语法以及算子的设计，同时采用akka框架实现了分布式多线程的并行计算，达到了单台128GB服务器实现10Gbps流量数据处理的效率。 3、本项目中的难点在于规则的设计；并行化效率。

1780作业/任务调度

数据关联关系挖掘系统

1、项目面向使用者提供了针对结构化数据自动挖掘数据间关联关系的功能，如给定一个数据列表，发现其中会频繁出现的数据序列，从A出现时，必定B会在A出现之后出现 2、在本项目中个人采用MaxSP算法实现了针对序列数据库的频繁项挖掘功能，并采用图数据库的形式对结果的关联关系进行了展示

1340Java

大数据服务平台-ibp

大数据服务平台 ibp 是一个面向内部的数据系统,包含数据输出任务创建,数据任务调度,模型文件管理,数据仓库质量监控等功能【1】数据输出任务创建 ,是基于数据仓库的ads层输出表,方便的创建各种类型的数据输出任务,包括邮件任务,短信任务和不复杂的数据接口【2】数据任务调度是基于 quartz 开发的调度功能,方便内部人员对数据任务进行调度安排【3】模型文件管理是方便数据科学家团队针对数据研究结果 pmml 文件进行管理, 更好的与开发团队协作【4】数据仓库质量监控是针对数据仓库的 etl任务, 数仓任务等进行质量监控,出现数据异常时进行快捷的排查我负责了大数据服务平台的整体设计,后台开发与前端开发本系统开发的难点在于数据输出任务与数据仓库的对接,需要考虑 dws 层或 ads 层的表设计,来适配更多的数据任务

2840Java大数据

MES集成控制

标题：MES集成控制软件作品介绍项目功能模块：计划排程模块：负责生产计划的制定和排程安排，实现生产资源的有效利用和生产计划的执行。生产执行模块：监控生产现场的实时情况，收集生产数据并反馈至系统，保障生产过程的可视化和追溯性。质量管理模块：实现对产品质量的监控与管理，包括质检记录、异常报警等功能，确保产品符合质量标准。物料管理模块：管理生产所需的物料信息，包括物料采购、库存管理、物料追踪等功能，保障生产物料的充足性和可追溯性。我负责的任务及成果：我负责生产执行模块的开发工作。我使用了.NET技术栈，结合C#语言和WPF框架进行界面设计和开发，与PLC、SCADA等设备进行数据通信和集成。通过设计实时监控界面、数据采集逻辑和报警机制，实现了对生产现场的实时监控和数据反馈，提高了生产效率和产品质量。最终，我们的MES集成控制软件可以帮助用户实时监控生产状态、提升生产效率和质量。难点与解决方法：在开发过程中，我们面临了与多方设备的数据集成和实时监控系统的稳定性挑战。为解决这些问题，我们采取了以下措施：设备数据集成：通过与PLC、SCADA等设备厂商密切合作，制定统一

1610Javavue

网络流量数据分析系统

1、项目主要包括实时流量数据处理和历史流量数据处理两个大的部分，实时流量数据又涵盖上下行流量监控、关键服务器行为监控、基于规则的异常检测等模块，历史流量数据处理涵盖用户画像、用户群像、代理流量检测等模块。面向用户来说，系统可以以可视化的形式向用户展示所在网络环境的基本概况，包括出口流量大小、在线人数、web网站信息、dns服务器信息、邮件服务器信息、实时的安全事件等，对整个网络的基本情况有一个清晰的认知。 2、个人负责采用Spark框架对接Spark streaming以及HDFS实现流量数据解析、流量数据分析、数据库写入等功能，具体实现了关键服务器行为监控、用户画像、代理流量检测、用户违规登录行为检测等功能模块。同时采用Django框架和Echarts实现了前端的可视化。 3、项目难点主要在于大数据处理的数据倾斜问题、分布式读取写入问题等。

1790Java分布式应用/网格

Sangria Scala GraphQL 实现开源项目

Sangria 是 Scala GraphQL 的实现。示例代码： { "data": { "hero": { "name": "R2-D2", "friend...

1230Scala

scala spark 天气的数据分析

主要是通过scala 读取mysql 的数据，对读取的数据通过spark进行数据分析，把分析的数据写入到数据库整个项目都是我负责的

1070Java大数据

车辆经销商crm系统

本项目是实现车辆经销商对自身客户的管理,让经销商能实现客户数据处理, 客户 360 画像, 客户分群, 客群筛选,基于客群的任务派发等crm 核心功能。【1】客户数据处理模块 : 是处理多个来源的数据,统一入到一个 crm 库中, 进行数据的整合。主要开发 2 个数据来源 : [1] 基于经销商系统开发一个入口页面, 让经销商管理人员或者相关岗位专员进行数据的导入,包括车销数据, 信贷数据和部分工单数据 [2] 系统数据对接, 对接已有的主机厂系统,通过接口, oss, sftp 等方式对接主机厂的相关数据,包括工单数据, 零部件数据等【2】客户360 , 将各个业务模块的数据整合到一起后, 在一个页面上全盘展示客户的全部信息, 包括车销,售后,信贷等业务线的标签画像,方便相关岗位专员在做业务跟进时,根据客户的全盘信息调整相应的销售策略与话术【3】客户分群, 是 crm 的核心功能,是指客户基于后台已打好的客户标签来筛选出自己所需要的目标客群, 来实现营销,推广等业务落地, 例如 : 客户在9 月份计划举办一个'进店有礼'

1640Javacrm

我的世界我的牛肉面

分为两个模块模块一我的世界，可以创建我的世界，我的世界里有我还有世界模块二我的牛肉面，可以创建我的牛肉面，我的家里有我还有牛肉面

1480JavaWEB服务/SOAP/SOA

大数据开发

- 主导构建离线数仓，汇集业务联机数据库和终端用户行为日志数据，实际数据过滤、治理、解析、集成、入库。 - 划分主题建设，为公司提供多种报表统计结果和业务系统技术支持。 - 提高数据处理性能，解决数据漂移延迟，实施数据脱敏和解析参数表的构建。 - 设计并维护多层次数仓结构，包括ODS、DIM、DWD、DWS和ADS层，优化数据仓库查询性能。项目架构：Hadoop + Hdfs+Zookeeper + Mysql + Hive+clinkhouse+ElasticSearch +Azkaban+dataX+Spark+shull 项目流程：数据采集： - 使用dataX从业务库同步全量和增量数据。 - 使用flume搭建数据传输网络。数据分层设计： ODS层：存储未处理的源数据，保持一致性和追溯性。 DIM层：存储各种维度表，例如药品主数据、地区、生产单位、运力_站点等。 DWD层：清晰、规范化数据、采用维度建模理论。 DWS层：按主题轻度聚合数据，例如单位物资日聚合表，仓库自然月集合表，省市区储备表等。 ADS层：存放重要指标的结果数据，提供数据产品和服务。报表开发：

1600数据处理

Akka Actor模型开发库开源项目

Akka 是一个用 Scala 编写的库，用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。 Actor模型并非什么新鲜事物，它由Carl Hewitt于上世...

910Scala并发/并行处理框架

数据湖实时架构

该项目用于同策实时数仓建设，主要包括数据入湖、数仓分层、数据集市和数据展现 1.基于数仓分层标准实现 ods/dwd/dws/ads 层间数据流转 2.基于 flink cdc+hudi+kudu 构建数据湖准实时架构、应用架构搭建、maven 分层和多环境部署(开源) 3.基于 hudi+impala+hive 构建数据湖批次架构、应用架构搭建、maven 分层和多环境部署(开源) 4.基于 cdas+flinksql+hologres 构建数据湖实时架构、技术调研和多环境部署(阿里) 5.基于 dataworks+hologres 构建数据湖批次架构、技术调研和多环境部署(阿里) 6..基于阿里云构建高可用、高性能、高并发数据湖架构项目职责: 1.架构设计、架构评审、技术选型 2.项目搭建、项目分层、核心代码编写 3.代码质量把控、code review 项目业绩: 1.实现同策数据湖平台搭建并上线 2.实现同策数仓开发规范，包括分层规范、数据集市划分规范和数据流转交互规范 3.由传统的基于 java 代码开发的模式转换到 flinksql 开发模式，

1050Java

大数据开发

我在项目中承担了以下任务，并使用了相应的技术栈：数据处理任务：负责设计和实现数据处理模块，使用了Apache Spark作为分布式计算框架，通过编写Spark程序对大规模数据进行高效处理。技术栈：编程语言：Scala（用于Spark编程）分布式计算框架：Apache Spark 数据存储：HDFS 数据库：（如果适用）成果：通过数据处理模块的优化和改进，提高了数据处理的效率，使项目能够更快速、准确地生成分析报告，并为决策提供更及时的支持。我在项目中承担了以下任务，并使用了相应的技术栈：数据处理任务：负责设计和实现数据处理模块，使用了Apache Spark作为分布式计算框架，通过编写Spark程序对大规模数据进行高效处理。技术栈：编程语言：Scala（用于Spark编程）分布式计算框架：Apache Spark 数据存储：HDFS 数据库：（如果适用）成果：通过数据处理模块的优化和改进，提高了数据处理的效率，使项目能够更快速、准确地生成分析报告，并为决策提供更及时的支持。

850Java大数据

spark程序跑批系统

该项目是针对生产数据量较大，月结期间，需要对数据进行批量计算并生成财务报表或相关报表数据用作公司经营情况分析涉及大数据相关知识，hadoop，hive,spark，sparksql，java,scala等技术，linux相关技术，数据每日从oracle应用数据库同步至数仓,应用配置定时调度任务，由应用调用spark进行跑数，并将结果展示在页面上我这边主要负责spark应用的编写，提供基础调用接口和日志结果分析等接口供系统调用

1080Java

IBN网络智能分析平台

IBN是基于意图驱动的网络智能分析平台，针对园区及数据中心网络，助力行业数字智能，系统涵盖网络设计与部署、策略管理、智能运维等整个网络生命周期。整套系统采用mongdb、postgredb、es作为数据存储系统，kafka作为消息队列，saprk作为实时与离线计算引擎，spring boot作为为服务框架，通过k8s调度各个服务器容器，各功能模块以微服务形式部署于服务器内。我主要负责大数据应用与微服务应用开发，在其中承担网络设计模块的微服务设计与后台开发，这部分功能包括新建网络的分区设置、网络模版设计以及业务网设计，也包括对现存网络的网络反演功能。承担分析保证模块的网络故障诊断分析核心功能的设计与后台开发，这部分包括用户报障后的故障根因诊断与网络故障主动发现，主要通过采集到的设备基本数据、状态配置信息，以及实时报文流数据进行异常识别与发现，再结合智能算法以及专家经验库对网络异常事件进行关联分析，及时给出用户网络故障根因分析结论。

2670Java大数据

车联网大数据分析

1、获取数据集 2、使用linux环境进行数据分析和存储 3、使用springboot+mybatis+html+echarts实现前后端数据交互实现大屏展示 4、使用Hadoop大数据分析环境、saprk计算引擎、scala语言编码、hbase数据存储

1730大数据

TransmogrifAI 自动化加速机器学习开发者工作效率的 AutoML 库开源项目

TransmogrifAI（发音为 trăns-mŏgrə-fī）是一个用 Scala 编写的 AutoML 库，它运行在 Spark 之上。它的开发重点是通过机器学习自动化加速机器学习开发人员...

810Scala机器学习/深度学习

广告实验平台( 仿真平台&AB实验平台 )

在线广告投放系统中十分重要的基础服务平台，包括模拟广告投放系统行为的仿真平台和支持在线流量分组的AB实验平台。离线的仿真平台能通过回放历史的请求，能够仿真历史上任何一段时间内广告系统的行为。主要应用在理解解决疑难问题、新算法效果验证等方向。该系统的技术特点 - 高精度的仿真，基本1比1还原了生产环境的在线广告投放系统，投放效果误差在千分之几 - 低成本，支持数据蒸馏，同时支持时间加速，最少可以仅用1%的资源拟合线上全量系统的结果 - 完整的生态，构建了包括实验元信息管理、运行时资源管理、定制版的微服务基础架构等众多子系统 - 对业务代码友好，支持非侵入性的集成接入 AB实验平台通过切分用户流量，在线上系统进行分组实验。该系统的技术特点 - 支持流量复用，按层切分，通层之间流量互斥，不同层之间可以复用 - 对业务代码友好，支持非侵入性的集成接入本人作为团队负责人，带领团队从0到1的搭建了这套广告实验平台。包括不限于， - 制定项目整体的规划，设计项目整体架构，确定技术选型 - 跨团队合作，讨论沟通业务边界，制定技术需求，确定接口、SLA等技术细节 - 指导团队成员设计子系统架构 -

1570Javaredis