大数据

“大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
用户行为日志收集和分析系统原来使用的神策数据提供服务,没有自己的离线数仓和实时数仓。但是在业务发展越来越多样化和用户量越来越大的背景之下,神策数据已经满足不了目前的数据需求。为了替换掉神策同时建设自己的离线和实时数仓,数据智能团队开始了自有埋点系统和实时数仓的建设。 本人在该项目中负责整个项目的工程架构设计、技术选型和核心模块开发,协调各端开发和测试的工作,推动整个项目在业务侧的落地。 1.埋点管理平台建设 埋点管理平台建设主要分为四部分:埋点SDK研发、埋点模型设计、埋点规范制定和埋点元数据管理。 考虑到项目开发效率和技术成熟度以及业务侧埋点的成本,项目采用了神策开源的SDK作为埋点上报SDK,同时做到了全公司各业务各端SDK统一化和标准化,制定了埋点端到端采集的规范,设计出灵活、全面、复用性高的埋点模型。在埋点规范统一的基础上开发出埋点元数据管理,实现了埋点的上下线管理、事件属性管理、埋点实时数据校验等功能,方便业务方使用和管理埋点。 2.埋点日志收集及在线分析系统建设 埋点日志收集及在线分析系统分为三部分:埋点日志收集技术架构设计、埋点日志实时ETL技术选型、OLAP组件选型
14850redis
通过网络爬虫技术从前程无忧等五个不同职业招聘网站中获取职位信息。随后,应用各种数据处理算法,如数据清洗、关键词提取、文本分析等,以提取有用的信息,如薪资水平、技能需求等。最后,这些处理后的数据可以通过可视化工具展示,以帮助用户更好地了解不同职业市场的趋势和特点。
2081大数据
长江产业投资集团企业大脑集团综合展示大屏主要是关于集团公司的主要业务以及资金规模的展示型大屏,我主要通过产品经理原型图进行设计的产出以及对交互上的优化,项目历时2个月。
1801UI设计
开发环境:Ubuntu 16.04,JDK 1.8,Hbase 2.2.4,Redis 5.0.4,Flume 1.9.0,Hadoop 2.9.2 使用技术:Socket、Maven、多线程、分布式、数据缓存 项目介绍:省部级横向课题。该项目分为数据采集和数据存储两部分,数据采集部分主要工作为将多种通信协议(TCP/IP、OPC-DA/UA、Modbus-TCP/RTU、ODBC、COM口(RS-232、RS-485))进行集成,应用环境中将单个节点采集到的数据在自定义Flume中统一格式,并通过TCP协议将数据发送到分布式数据采集服务器,服务器将采集到的数据进行存储并使用Redis做一级数据缓存;数据存储部分基于开源OpenTSDB进行改进,对数据写入和压缩做优化,具体改动包括在数据写入中加入第二级缓存并对数据进行批量写入,减少频繁调用写入接口造成的大量磁盘索引消耗,引入Gorilla时序数据压缩算法对写入数据进行压缩,优化Telnet put方式的数据写入方法,删除基于Netty服务的HTTP put方法减少资源占用,定制化API接口和Web管理端,Shell脚本一键化安装和部署
1801
Data 大屏是一款专业的数据可视化大屏展示工具,其内置多种主题风格以及丰富的组件库,并支持定制化的设计需求。通过异构数据源整合,Data 大屏可轻松接入企业各个业务系统, 实时展示数据,帮助企业第一时间了解业务情况,及时做出决策。
1030
项目:数据操作平台 开发环境:Idea、Windows10、JDK1.8、MySQL数据库、Maven 软件架构:SpringBoot+Mybatis-plus+Redis+nacos+GateWay+Feign 项目描述:全链路的大数据开发,任务调度,数据质量,数据治理及数据服务平台,该平台有:配置中心、数据标准、数据建模、数据采集、数据转模、数据清洗、数据质控、数据加解密、数据概览、数据同步、消息中心、用户权限、API网关服务、DolphinScheduler调度等模块。 项目职责: 1、负责开发API网关服务,API网关是运行于外部请求与内部服务之间的一个流量入口,实现对外部请求的协议转换、鉴权、流控、参数校验、监控等通用功 能。 2负责开发数据建模,就是根据手动、导入创建的表字段,生成DDL语句,发布到指定的数据源中。 3负责开发数据转模,就是选择模型表,然后写插入查询SQL,把写好的SQL发布到DolphinScheduler中。 4负责将开源的DolphinScheduler调度系统合并到数据平台,并对其进行一些适配数据平台的二开。 5、负责开发用户权限,就是做用户管
6570springboot
【项目简介】主要用于简单配置即可采集任意网站,集成多种采集方式,支持各种自由配置; 【项目模块】主要包含自定义采集、作业任务、任务配置、数据入库、数据打包、自动化配置 【我负责的】个人全完自主开发产品
1361大数据
项目描述:平台整体架构分为三层,前台为展示层主要由PC端组成,业务主要由数据服务、受众服务、分析服务、营销服务、成员服务、资源服务组成。后台主要分为两部分来完成对业务的支撑,内部服务则由计算服务调度服务和消息服务业务时完成业务的核心部分,外部服务主要为对接入第三方完成对受众用户发送短信邮件等营销手段,数据导入部分需要借助数据治理完成对数据的导入。 项目意义:用户增长平台以消费者为核心进行运营活动,全面的认识消费者,并从中筛选更有价值的客户,高效触达消费者,通过丰富的用户筛选和便捷的策略配置,完成消费者多维洞察分析和多渠道触达,助力企业实现用户增长。 项目职责:任职期间主要负责平台的整体设计、概要设计详细设计的软组部署等相关文档的输出、核心模块数据源数据集以及受众业务和底层服务的开发、协调组内成员的开发工作。 项目业绩:对项目产出核心代码两万余行,调用大数据相关生态组件,调研 DolphinScheduler 作为业务流并自定义研发轻量的任务服务。分析产品业务理解并学习用户增长业务场景和概念问题。解决产品的研发难点,保证产品的正常迭代。
1230大数据
目前我国中小房地产公司由于业务较多、数据繁杂、出现数据后端更不上业务发展的节奏,为解决该问题,我司开发该项目,主要为我国中小房地产公司提供数据查询、数据管理等服务,可以解决跨部门口径统一的功能。该项目采用微服务架构,使用springcloud,mysql,redis,rabbitmq,nacos,ElasticSearch+Kafka,docker,Hystrix等进行开发。主要模块包括:数据收集、数据存储、数据处理、数据分析、可视化和系统管理。 工作内容: 1、业务沟通与建模,技术选型,环境搭建与机器部署,数据库建模 2、redis采用redis cluster做集群保障动态扩容,个人中心、交易中心使用bitmap、HyperLogLog类型进行大数据量统计 3、监控系统监控Rabbitmq的Dead-Letter-Exchange应对消息积压 4、基于分布式搜索系统ElasticSearch+Kafka满足站内搜索和ELK日志系统 5、改造Spring cloud gateway建立服务网关 6、引入Hystrix熔断器并进行适配和优化
2090大数据
数据治理平台致力于打造一个具备开放自主开发能力的一站式、标准化、可视化、透明化的大数据全生命周期数据开发治理平台。通过单一平台,即可实现数据传输、数据计算、数据治理、数据服务等各类复杂组合场景的能力构建数据资产中心。同时,数据治理平台持续打造符合企业级数仓、数据中台构建要求的能力,满足开发人员从数据引入,数据计算,数据挖掘,数据质量,数据地图,数据服务的各层次能力,为企业业务的数字化转型提供支持,极大的缩短了企业数据价值的开发过程,提高企业提炼数据价值的能力。
960
1.项目描述: 根据某政策文件,需进行全国第X次调查审核系统,项目为全国范围内使用的系统,日活用户量为2万,日接口请求量为1500万,最为突出的特别是地方差异性(全国地区各地方的特殊自然环境)、审核数据全流程留痕、任务大、周期长(三年)、高并发、三级等保安全性等。 2.技术栈:springBoot+Mybaties+postgresql+clickhouse+redis+vue3.0+Spring Security+Docker+Centos+Maven+Git+SFS+Obs+minIO
770
1) 项目基于hbase 作为图数据存储,每个图实力存储一张表。每个实体存单行,属性和关系存入列中 2)负责数据清洗,统计实体和关系数量,快速导入数据任务
910
需求:接的爬虫项目,要求通过公开数据爬取五大联赛2005-2021赛季每场赛事具体数据,包括胜负关系、进球数、联赛排名,同时爬取每场赛事对应赔率与菠菜相关数据。 分析与实现:数据相关网站具有多个页面,ajax 动态加载页面,相关链接通过 js 跳转,经过初步分析联赛数据部分使用开发者工具抓取 json 数据包,利用 requests 包爬取,赔率相关界面结合 selenium 模拟点击并定位相关元素,获取需要数据。后使用 scrapy 框架提高爬取效率。
7960大数据
项目环境:MySQL+ClickHouse+Spring+SpringMVC+MyBatis+RabbitMQ+Kafka+Linux 项目描述:属于二开项目,将数据存储从 Lucene 切换至 ClickHouse,是一款软硬一体化产品,将数据库 的各种访问操作,解析还原为数据库级的操作语句,通过预置的安全规则匹配,即可智能分析和监控访问者的各 种操作,可以准确的反馈数据库的各种变化,对我们分析数据库的各类正常、异常、违规操作提供证据。项目使用 SSM 框架搭建,使用 MySQL 存储配置数据、ClickHouse 存储审计数据。 项目职责:负责项目的技术攻关、需求设计、串讲、二次开发、冒烟测试、漏洞修复,主要负责检索模块和 数据维护模块以及数据存储的优化开发 1、数据存储:将原本的 lucene 存储数据转移至 clickhouse 中,优化检索以及报表展示性能。 2、检索:百亿级数据检索优化,经历两次优化,第一次优化通过百度分页方式将检索效率提升 10 倍,第二次 采用多线程+websocket 分批推送将检索时间提升至秒级,得到客户认可; 3、数据维护:自学 ClickHous
1030大数据
1、宁德时代,各工厂和机台方差,标准差,期望值,数据统计 2、离线批处理统计数据量大概500g 左右,负责封装,公共类,数据统计,以及参数调优
800
获取金融网站的各类数据,可以指定数据获取 每日定时获取,自动进行更新,带容错,防止被禁 数据自动推送到钉钉 用到的技术:pandas/urllib/json/hashlib/base/bs4
9752
为国际矿物学会构建python包,以便于相关工作人员查询每年被认证的矿物名称、化学式等信息。 该包主要涉及的功能包括:基于矿物名称的精准查询和模糊查询、数据导出、数据名称的标准化等内容。
990大数据
1. 新能源电池bms通过tcp上传整包、电芯等数据。云端接收数据并进行清洗和保存。 2. 特定算法对电池数据进行分析,对结果和告警进行实时展示 3. 采用docker,springboot,netty,zookeeper,kafka,hbase,spark,mybatisplus,vue,echarts等技术。
1040Socket
10年运维经验 先后从事电信、银行、教育、能源、环保等领域的运维工作 从事过 大数据、数据开发、devops、CICD、运维自动化、监控告警、分布式数据库、高可用、调研压测并和阿里华为数据库研发团队共创过功能等相关工作 有自己的团队,可承接业界95%以上的运维工作内容
1200大数据
功能包括python爬虫,Matplotlib绘图、Echarts数据可视化、结合mysql数据实现hive电影相关数据统计、Mapreduce词频统计、情感分析、词图云等
1120爬虫
当前共442个项目
×
寻找源码
源码描述
联系方式
提交