大数据

“大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
首先,数据采集是数据中台项目的核心模块,它收集各种数据源的数据,并将其存储在中央存储位置。为了满足各种不同数据源的要求,我们会采用不同的技术手段进行数据的抓取。同时,我们会确保数据的准确性和完整性,通过一系列的校验和验证步骤,确保每个数据点的可信度。 其次,维度建模是为数据量较大的项目而设计的,它将大数据集合结构化,以便于进行后续分析。通过维度建模,我们可以将数据按照一定的逻辑关系进行组织,并且为每个数据点赋予一个独特的标识符,以便于后续处理。 最后,数据模型构建和ETL工具的选择是数据中台项目的另一个重要组成部分。我们选择了airflow作为ETL工具,使用它可以轻松地将数据从一个源传递到另一个目标,并且非常灵活和可扩展。数据模型构建旨在为公司提供高效的数据分析和挖掘服务,帮助公司有更好的在比较庞大的数据集中找到尖峰。 遇到的问题和技术难点 数据采集和维度建模模块是数据中台项目的难点所在。项目组需要面对的大部分问题都与数据的有效性和准确性有关。 例如,数据不一致性、客户相关的信息和订单数量等多种问题都可能会在相关数据的采集过程中出现。因此,我们采取维度建模,梳理3大领域,5大
2070大数据
项目主要分为后台管理和大屏数据展现两个服务 后台管理:登录,菜单,角色,用户,权限,基础数据管理 大屏:根据不同维度展示数据,实现数据实时更新
960大数据
项目介绍: 平台是一个打通数据前台与后台的数据中台建设支撑系统,旨在简化数据开发与处理的流程,支持 Oracle、Doris、HIVE、PG、Mysql、SqlServer、Phoenix 等多类型计算引擎。平台提供从标准、建模、指标、数据同步、数据开发、数据治理、数据分析、数据服务的一站式大数据全链路解决方案。通过此平台可构建 PB 级别数据仓库及进行数据价值的深度分析挖掘。平台采用开箱即用的使用方式,用户无需关心底层集群的搭建和运维。通过平台,将对企业级海量数据进行采集、计算、存储、加工,同时统一标准和口径。将数据平台化统一治理后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效数据服务,支撑企业用户数据中台建设与数字化转型 我负责的: 连接管理:对各种数据库的连接及测试连接。 元数据采集及管理:对各种数据库元数据的采集。 数据权限:对用户数据权限的控制,包括权限的申请、审批、版本等。 开发中心:给用户提供一种简单且易用的对数据处理的模块。 技术栈: 后端开发语言:Java 前端框架:Vue 数据库:oracle mysql doris gba
1840Java
项目描述:宏观决策大数据应用子系统提供宏观指标的统计、业务指标变化分析及原因深入挖掘、政策调整影响的模拟测算和趋势预测等功能,帮助医保管理者洞悉历史,进而展望未来。 主要职责: 熟悉系统,了解医保业务,根据系统的基本业务指标,编写对应页面的数据库抽数逻辑。 创建数据集市的增量抽取任务以及从数据集市库(Hive)到应用库(Vertica,MySQL)的数据同步工作。 根据用户需求,修改国家局下发的代码,适配本地新增功能。 负责给新同事培训新华三绿洲平台任务、作业的创建以及项目、数据一体化平台的部署。
1040
该项目的主要目标是汇集联行的地产数据,提供给第三方用户进行分析,包括不同城市之间的地产出租率、空置率、退租率等数据。它是一站式中国办公楼数据分析平台。 技术集成:SpringCloud、Redis、VUE、高德地图API、Office 365、MySQL、Linux 个人职责: 1.提供了租户数据Excel导入/导出、地图数据展示、正态分布计算、楼盘年度数据对比。 2.楼盘市场表现计算、租户分析、成交数据定时统计、租户稳定性分析等主要功能,实现了大量的数据统计和计算功能。 3.表结构设计、索引使用方案 4.前后端联调、代码编写、服务部署
1370mysql
1. 项目分为调度平台,语音管理,线路绘制,运营系统,设备管理,系统管理等六大子系统模块 2. 项目前端负责人,负责整个系统的前端部分,使用基于vue, elementui 等开源技术,自研前端框架,封装相关组件库,设计自动化部署流程,搭建错误监控平台。为客户实现了网络在线调度,助力集团企业达成信息化建设目标 3. 调度相关核心界面具有数据量大,实时性高等特点,采用websocket,虚拟滚动,canvas 绘制等技术实现高性能渲染。为客户解决百万级大数据量情况下,下拉菜单、树形菜单、无分页表格等场景流畅渲染的问题
880大数据
养麝监测系统,主要组成部分由数据采集器(项圈)和智能分析软件(后端管理软件)构成。由佩戴在麝脖颈部的项圈,对麝运动量和静止状态(休息)进行采集。再通过LORA基站上传到应用服务器进行数据汇总。最后由后端管理软件对每头麝的近6-12个月运动量进行可视化数据展示。通过结合麝养殖的实践经验从而判断出“麝的运动数据”是否对麝每头发情期有怎样的指导意义?进而为二期的“智慧养麝大数据”打下坚实的基础。实现“精准预测麝的发情期,提高麝精细化管理及科学养殖水平”而努力。
950大数据
项目描述:基于大屏、网页、移动端等渠道以最简明、最直观的图像、图表等形式动态展示医疗保障信息平台各系统业务实时运行情况,让用户对自己关注的业务场景了然于胸。 主要职责: 前往新疆生产建设兵团师部进行一二三轮的用户需求调研并输出相关调研文档。 参与数据仓库的设计,完善项目中的数据抽取逻辑,优化公司数据一体化平台。 学习Hive和Spark大数据抽取技术,创建日增量Shell抽取任务以及日增量同步数据任务。 根据功能需求,进行本地新增模块的数据库表的设计以及创建。
830
项目架构: 前端(html+css+js+vue)/vue + JavaWeb/SpringBoot + Spark/Flink + Mysql + Hive + Es + HBase + Echarts 项目描述: 平台功能项 : 任务调度功能、各领域数据指标展示面板、数据质量监测、小工具项 项目职责: 1.平台前后端搭建 2.任务调度 : 支持spark/shell/api方式,存储及展示任务执行详情(执行日志、执行时间、任务执行状态、spark任务日志分析) 3.数据展示 : 根据指标更新时间,会周期调度统计任务,并且将结果存储到mysql,展示只需从mysql拿到指标结果,通过Echarts展示 4.数据质量 : 支持通用监测及sql监测,可定时监测数据质量(字段空值率、ads/ods数据占比、敏感数据占比、正文格式定期校验排查等) 5.小工具项 : 数据删除、后端菜单节点更新、缩小hive分区等功能界面化操作
1550
项目描述: 大数据平台是顺应目前信息化技术水平发展、服务政企业务改革的架构平台。它的主要目标是强化经济运行监测分析,实现政企业务信息化监督,建立规范化共建共享的管理体系,推进政企数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高政企工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发展。 1、制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信息系统数据、组织部门数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础; 2、梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。 在大数据分析监测基础上,为政企把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。 项目职责: 1、负责产品设计; 2、规划产品发展路径,在项目推进过程中跨部门协调沟通工作,并推进执行; 3、设计产品具体功能,组织协调其他部门高效完成产品开发; 4、从整个产品研发的各环节中,负责与开发人员、UI、市场的相关人员沟通协调。
2320大数据
1、【项目整体介绍】基于移动数据为移动公司做对应业务的用户画像以及一些数据分析工作,其中涉及到前后端页面以及数据等功能 2、【我负责的工作】开展用户画像需求调研及分析工作,配合需求完成运营分析报告、用户画像及统计分布三大模块开发及封装任务,涉及数据清洗、数据入库、数据探索、数据汇聚、数据同步、任务调度等众多内容,定期参加相关会议,及时了解项目进展情况,整体把控项目进度,并规划开发的具体人员及时间进度,与团队成员进行沟通交流,对项目中遇到的问题及时给予帮助。 3、有些项目涉及到保密协议无法展示,而且我是写代码的,没什么作品图片上传
1110大数据
新产品架构设计,解决各种瓶颈问题,有海量数据处理经验。 微服务,集群,分布式,负载均衡,高并发,大数据技术等。 Spring boot、spring cloud、Mybatis、SpringMVC等常用框架 SQLserver、MySQL和Oracle,掌握SQL及PL/SQL编程,需求分析,数据库优化,数据库设计 elasticsearch,Nginx、Redis、Solr、mongodb、达梦、neo4j图库、kafka、etcd等 docker,k8s scala spark flink kafka hive hbase等大数据技术
970大数据
全量企业工商数据库,主要采用一些关键的爬虫技术和相关业务资源做企业数据整合,以工商为主体多维度扩展,能适用和孵化出多个不同的业务场景。 主要有工商信息,无形资产,司法信息,招投标数据,招聘数据,海关数据,税务数据
1320大数据
统计局处理企业信息的平台(对接数据湖处理数据) 1:处理企业年报数据,经营异常,违法失信数据(单表千万级别) 2:处理每日的企业增量数据,设立,变更,注吊销(单表千万级别) 3:对同步的数据做监测的统计分析 负责项目的整体的对接和开发
1090大数据
1.系统对数据进行解析存储,在页面中实现按条件进行数据查询统计; 2.实现关注列表,添加关注的博主方便使用 3.对个性签名的邮箱匹配进行邮件发送,预设邮件模板
1050大数据
数据可视化显示源文件源码
为了对让数据更直观的显示出来,用python对数据进行可视化,其中为部分可视化,此为航线图,用于查看各个轨迹的密集程度
1920大数据
广乘营销大数据平台项目的目标是统计和汇总大数据平台的各个项目表单,实现数据的集中管理。在项目中,我参与需求分析讨论,配置dolphins调度,Linux调度,参与数据仓库的架构设计及代码编写工作。我使用ETL技术从各个系统如生产系统、财务系统、仓储系统、合同系统等抽取数据并统一到大数据Hive平台。在数据分析方面,我使用易语言、python等工具进行配置,优化大数据集群资源。通过这个项目,我不仅提升了数据处理效率,还为后续的数据使用、指标信息获取提供了便利。
990
1、该系统主要分为两个大模块,大屏看板和BI报表,大屏看板以最简明、最直观的图像、图表等形式动态展示各个维度(年、月、日、省、市、战区、厅店)的车辆、车辆配件的销售数据以及服务人员的配置、培训、考试等数据。、 2、我的职责:(1)根据业务指标编写精品附件模块从明细层到汇总层的抽数SQL。(2)负责设计精品产品配置、地区配置等报表的增删改查页面。(3)使用帆软设计器设计、修改精品附件大屏看板。
1250大数据
项目描述: 对上交所、深交所、北交所和沪港通每日的基金股票数据做处理。下午三点数据会发送到服务器,CD监控到数据到达,抽取数据到Linux后通过flume处理sink到hdfs,经过后续ods层到jgqr层的业务逻辑,生成数据推到下游应用端。 项目职责: 1.使用CD工具和SHELL脚本,采集Windows上面的数据到Linux中。 2.负责pre层的数据处理。在pre层为针对不同的业务逻辑对数据打上标识。 3.自定义flume的source对不同的文件数据进行解析rdb、xls等文件格式解析。 项目贡献: 1.对pre的处理逻辑做优化,需要使用到的历史数据做前置处理,过滤不需要的的数据,解决数据倾斜等问题。 2.执行交易明细层的时候,对pre表和参数表提取视图,提升交易明细层的执行效率。 3.每天业务完成后对交易明细层的小文件进行合并,提升交易汇总层的执行效率。 4.跑接口数据的时候,需要使用到最新的参数表,参数表在不断的更新,采用insert into加批次的方式解决该问题。 5.设计db2状态表和hive的业务表,理解业务,在满足业务的前提下对接口流程可能的去提升执行效率。 6
1710实时
基于 Python 实现 B站 热搜榜信息的爬取; 使用 Python 的 requests 库实现信息爬取; 使用 Python 的 json 库实现爬取信息的处理; 使用 Python 的 openpyxl 库实现信息到 Excel 表格的存储;
1130大数据
当前共442个项目
×
寻找源码
源码描述
联系方式
提交