大数据

“大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
该项目是基于Apache版本的大数据框架完成的一个电商类数仓系统,主要完成了用户行为数据和业务数据的采集平台搭建,业务仓库维度的建模,分析了电商核心主题指标,有商品信息、用户设备信息、地区信息、会员信息等。数仓的日志数据又Flume采集,通过Kafka消费数据到Hdfs,业务数据生成后使用Sqoop把数据同步到Hdfs中,采用即席查询工具Presto进行指标分析,使用睿象云+Python+Shell做异常数据第三方告警(邮件、电话),用Azkaban来做全流程调度,用Zabbix做集群的监控和告警等。
780大数据
1.数据源列表相关功能,.数据集新增,编辑等功能,仪表板,数据报表。。。 2.使用到得技术,antv/g2,antv/g2-plot, antv/x6, antv/l7, vue全家桶
2110大数据
1.数据提取 从hive中提取AIS船只一周轨迹数据 2.数据预处理 提取AIS数据中的经纬度数据,考虑到每个船只在一周内行驶范围不一样,调惨时针对每个船只的超参数差别较大,于是使用0-1归一化将经纬度都缩减至0到1的范围,既可解决超参数问题,也可以加速算法收敛。 3.轨迹点聚类 使用DBSCAN算法对轨迹点进行密度聚类,将指定半径内密度不达到要求的数据点标记为异常点。 4.正常簇筛选 可能会出现如下情况:船只可能大部分时间在正常轨迹上,只有一天时间在异常轨迹,但异常轨迹的轨迹点密度较大,如绕圈行为,此时异常轨迹密度达到了正常轨迹,会将此类判断为正常轨迹。对于此类情况,计算聚类后每个正常簇的持续天数,将持续天数小于整体轨迹持续天数三分之一的标记为异常轨迹。 5.异常轨迹筛选 由于DBSCAN算法标记为异常点的数据不是一个簇,可能为分布在不同地方的异常点,这些异常点可能为正常轨迹的末端,即被误判为异常点,对于这类情况,对这些异常点再进行一次DBSCAN聚类,并计算每个簇的持续时长,将持续时长满足条件的异常点标记为正常点
2090
1.从采集卡拿取数据,分为Card型,net型数据,可能通过硬接线和UDP发送,需要写程序去接收,因为card型数据为直接从硬件拿,所以使用的C#作为采集card数据的接口。 2.整个系统使用hadoop做分布式架构,所有传感器数据都存入hbase,使用kafka做消息队列,需要实时显示的处理数据都发送到kafka再通过websocket分发到前端。 3.前端使用vue3开发,根据客户需求进行开发。 4.我在本项目中前后端,包括算法,架构参与度大于50%
1200C#
通过python爬虫获取梨视频网页的视频 首先设置任意随机的请求头、通过request函数的get方法向网页发送请求、其次返回一个对象使用text进行获取网页全部内容、再通过etree.html()来对网页进行解析,最后xpath函数通过网页的视频的节点获取视频
1900大数据
企业数据梳理采集标准化,分析数据价值,可视化方式展现。 可云可本地部署,如自有技术人员后期可自行拖拽编辑,从而降低企业技术要求。
1010大数据
1、根据双色球2003年至今的历史数据进行分析 2、预测红球规律,篮球规律,并给出最近一期的可能结果 3、其中某一期篮球命中率100%
1360大数据
搭建数据调度平台,进行大批量并发任务处理 建立数仓。 可使用python,java 使用flink.spark进行大批量数据清理 熟悉各种数据格式接入 熟悉hive,hdfs,clickhouse,mysql
930大数据
使用python爬虫技术 用request请求向网页发送请求 、获取响应的内容、xpath不能获取注释 需要手动去掉注释、使用etree对html的内容解析、然后通过xpath网页节点来获取网页内容信息、然后通过连接mysql数据库保存
1570大数据
开发工具:Jdk1.8、idea、maven、svn 技术栈:idea,oracle,redis,springboot, Spring Cloud Alibaba,Nacos, 项目简介: 该项目采购了上海罗盘信息科技邮箱公司的的数据治理产品(edgs)帮助海富通基金管理有限公司完成数据治理的相关工作,为了提升海富通基金对数据的治理能力,需要在edgs的基础之上进行定制化开发,系统的功能模块有:数据资源、数据资产、数据标准、数据质量、数据查询、数据应用、系统管理,API服务 项目职责: 负责API服务模块的数据库模型设计,完成api对外接口服务,完成白名单管理、权限验证、帆软报表数据集对接、帆软报表内部函数映射、安装部署手册等工作
900大数据
通过python的request库来获取top250网页的电影信息 首先确定网页的网站、通过request请求向网页发送请求、可能会遇到网页的反爬虫,需要设置多个请求头 使用random函数来获取每次请求头不一样任意选取不同请求头、然后返回来一个对象,使用text来获取内容/etree.html来解析网页内容、最后xpath函数来获取数据
1340大数据
1. 数据收集:从各种数据源中收集数据,包括结构化数据和非结构化数据,如数据库、文本、日志、传感器、社交媒体等。 2. 数据清洗:对收集到的数据进行清洗和预处理,包括删除重复数据、填充缺失值、处理异常值、统一格式等。 3. 数据转换:将数据转换成可供分析的格式,如转换成表格形式、提取关键信息等。 4. 数据存储:将数据存储到数据库或其他数据存储介质中,以便后续的操作和分析。 5. 数据分析:对存储的数据进行分析,包括探索性分析、统计分析、机器学习等。 6. 数据可视化:将分析结果以可视化的方式呈现出来,如图表、地图、仪表盘等,以便更好地理解和传达分析结果。 7. 报告撰写:根据分析结果,编写报告或撰写文章,以便进行交流和分享。
2390
通过大数据平台为基础,提取AIS、雷达数据,使用逻辑回归、SVM等多个分类模型对数据进行训练,达到可以实时对船只行为进行预测,判断是否会有抛锚行为。
1180
一、功能 1、驾驶舱 2、页面分析 1)提供SaaS化系统隔离功能 2)能多维度对比系统的UV、PV、停留时长等 3)能记录用户页面点击、停留情况,能追溯用户行为 4)能查看页面异常、慢等问题 5)可以查看用户的留存、成交、画像 等功能。 3、 页面分析、性能分析 1)能记录用户页面点击、停留情况,能追溯用户行为 2)记录接口访问情况,记录异常及耗时 3)记录SQL耗时 二、技术栈 前端:Javascript、Vue 后端:Openresty、Filebeat、Kafka、Elasticserach、Skywalking、Spring Boot 大数据:Flink、Hadoop、Hive、StarRocks 三、我负责 1、市场调研,产品方案设计 2、技术架构设计 3、后端、大数据端主力开发 难点: 1、修复神策开源SDK遗留bug(借助了神策开源SDK进行埋点)。 2、数据对实时性要求高,已做到实时任务做到动态数据补充。 3、存在多维度的数据拼接的需求,借助StarRocks物化视图的能力,实现高性能查询。
1640
1. 使用flink实时框架对轨迹数据进行实时处理 2. 使用tensorflow训练分类模型,对船只是否存在风险行为进行判断 3. flink调用模型进行实时预警 4. 对轨迹进行实时平滑处理
1260
项目介绍:公司业务运行的监控大屏项目,实时监控各大模块的运行 负责工作: ① 使用echart、高德地图web端api开发公司日常数据报表页面 ② 利用高德web地图的PathSimplifier插件结合WebSocket开发车辆监控页面,实现对在线车辆的实时轨迹监控 ③ 调整webpack的打包配置:分离第三方依赖、抽取了公用代码、加入图片压缩等,减小了打包的体积,提高系统的访问速度
1790大数据
负责使用Python批量爬取交通小区建筑容积率等建筑信息,以获取交通小区建筑总面积 负责使用Arcgis关联OD出行数据和用地数据,以统计交通小区内出行人口数据 参与构建多元统计回归模型拟合不同区域用地性质地块的交通出行率,为交通影响评价提供数据支撑
1260大数据
1.使用python爬虫爬取 选择贴吧用户回复数据,原始数据使用python爬虫的request方法爬取自行爬取或构建。在分析前对分析的原始数据据进行预处理和清洗,并将清洗规则说明。 2.导入数据进行分析 将原始数据预处理后导入Mysql,并使用python pandas以及numpy等进行分析。 3.使用python将可数据可视化 利用Python进行数据可视化分析并截图。
1630大数据
1、项目主要分为:关系型数据库的数据Sqoop同步至Spark;Sprak数据内部二次处理、Sprak数据同步至MongoDB 2、难点:大数据和java的结合、spark数据同步
970大数据
该项目对千亿级电信用户行为实时数据采集,并使用Hadoop, Spark技术进行实时分析统计处理。通过采集数据,比如浏览的页面,点击的按钮,查看的内容,用户的基础信息,包括地区,手机品牌,浏览器版本,操作系统等,形成用户画像,从而对用户行为数据进行漏斗分析。 把电信用户行为数据集加载到HDFS中;使用python语言编写Spark程序对HDFS中的数据进行用户行为分析,并把结果写入到MySQL数据库;使用Django框架开发网页应用,对MySQL数据库中的数据进行可视化分析;
2060大数据
当前共442个项目
×
寻找源码
源码描述
联系方式
提交