大数据

“大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
数据的高度分析源文件源码
对用python接口和数据挖掘到的数据进行了深度的分析, 并提取关键词之后,对数据表格进行了多级分类, 删除无用数据,对数据进行了过滤和分析,并产生最后的分析结果。
840大数据
项目名称:比价平台(2017.12-2018.06) 开发环境:Eclipse、Tomcat7、JDK1.7 主要技术:Httpclient、Htmlcleaner、Xpath、Hbase、Redis、Solr、SpringMvc、jquery、Echarts、Zookeeper、Ganglia 项目介绍: 该项目主要是抓取京东、易迅、国美、苏宁等电商网站的商品,获取商品的标题、价格、规格参数等信息,在前台界面为用户提供商品搜索查询,以及商品比价等功能。 项目主要分为6个模块:数据下载层、数据解析层、数据存储层、数据处理层、数据展现层、系统监控层。 项目问题:ip被封,网站页面结构变动。 职责描述: 1、负责商城的数据爬取收集,从电商页面,解析出商品的明细信息,商品的价格,商品的图片等信息 2、负责系统的监控,利用zookeeper对集群中的各个节点进行监控,当其中的有节点宕机了,会用邮件通知运维人员进行相应的处理 3、负责将获取来的数据信息存放到hbase数据库中,并且对数据建立索引等操作
1240大数据
项目名称:网站日志分析系统(2016.08-2017.04) 开发环境:Eclipse、Mysql、Maven、Jdk 主要技术: 实时:Storm、Kafka、Mysql 离线分析:Flume、Hdfs、MapReduce、Redis、Hive、Sqoop、kettle、Mysql 项目介绍: 根据网站的Access、UGC日志,分App维度、总的,离线统计每天的UV、PV、登录人数、次日留存和七日留存。根据用户实时产生的UGC日志,分App维度、总的,实时统计用户每分钟一次的充值和消费情况 。 离线分析:整个离线处理流程使用kettle监控任务并调度。 1、数据采集:将用户的Access、Ugc等日志通过Flume采集,按天和业务分目录存储到HDFS上。 2、数据清洗:每天定时通过MR清洗前一天的原始日志数据,Load到Hive表中。 3、数据分析:编写Hive语句和Shell脚本统计指标,并将统计之后的指标使用Sqoop导入到Mysql,使用Kettle将Mysql中与hive表对应的
1380大数据
数据抓取源文件源码
抓取了pico官网论坛指定时间段的评论,并做数据分析, 利用了python的代码实现, 框架用的scrapy, 过程分析了网站动态加载数据的规律,最终抓取了指定月份的数据,并进行了有效的数据分析。
820大数据
1、项目模块: 首页轮播,算法介绍,算法演示,新闻动态,机器翻译,帮助中心和用户中心 2、本人负责: 算法介绍、算法演示、用户中心 技术栈:SpringMVC+Mybatis、Jquery、Mysql、Redis、Tomcat、Dubbo、Zookeeper 成果:1.为客户私人定制服务 2.获得领导一致好评 3.难点:算法效率有待提高
1340echarts
项目名称:智网大数据平台(2018.07-2018.12) 开发环境:SecurceCRT、Centos7.2 主要技术:Shell、Jenkins 项目介绍: 在大数据时代的环境下,公司需要有效利用多源、多结构数据,安全地进行数据加工和增值,建设公司自有数据能力并进行转化。因此公司对于大数据平台的数据生产(汇聚存储多源数据、自动化清洗与入库)、分析加工能力(公司经营分析报告、公司数据洞察报告)、数据安全(严格保证数据安全、多租户环境用户控制)和能力开放(多样化对外开放能力、平台能力模块化租赁)四个方面有极高的需求。 职责描述: 1、编写shell脚本每天定时采集接口机数据并入库到Impala数据库中。接口机数据包括JPO、AMSP、廊坊。 2、负责在线商店、TBOSS等结构化数据采集到Impala数据库中。 3、编写shell脚本对AMSP数据进行数据清洗操作。 4、编写shell脚本对接口机数据、入库后Impala表中的数据进行监控。 5、通过Jenkins对服务器之间的脚本进行作业调度与监控。 6、周期性检查每天的数据是否都入库,对于缺失的数据采取对应的措施。
1260大数据
平台提供一站式数据集成、开发、生产调度与运维工具,支持离线与实时计算、数据资产管理、数据质量管理及安全审计等,为用户提供数据交换传输、数据计算、数据治理、数据服务化的能力。通过D-Lite帮助企业建立自己的数据中台,有效管理数据资产,提升数据 、开发者的生产力,充分挖掘和使用数据价值
1760大数据
每天对国外足球赛事进行文字直播; 通过国外接口,定时脚本循环读取接口,将获取到的数据转换为多种外语进行展示; 通过接口获取数据生成JSON文件,前端循环读取文件,展示数据; 详情请看:https://wlive.7m.com.cn/
2000大数据
智慧城市中的公交相关的业务功能 主要包括车基础数据管理,动态运营监测,行业辅助决策,能源消耗监测,客流分析,运营分析,成本分析,线路规划,区域分析等
1060大数据
智慧听鉴主要是正对录音的语句转文字、错别字纠正、热词统计等功能 1、智慧听鉴的核心功能主要分为质检和报表 2、质检的功能主要是对录音内容进行分析,判断是否按照话术来讲,或者有没有讲违规信息,最后打分 3、报表属于质检后的一个功能,它只要是对质检后的信息做一些数据趋势分析,比如:录音时长,质检得分趋势,热词排行榜等等。
2590大数据
一款基于Netflow数据的流量分析系统,可实现对流量流向、DDoS攻击、路由设备接口流量等分析。 产品基于大数据集群,使用spark技术,稳定运行在运营商级别网络环境; 个人负责后台部分代码开发,以及运行配置调优,解决日增量20T数据稳定处理
1010通信
项目名称:移动终端上网数据离线分析处理系统(电信项目)(2016.01-2016.07) 开发环境:Eclipse、Jdk1.7、Maven 主要技术:HDFS、Mapreduce、Hive、Spark、SparkStreaming、Sqoop、Impala、Oozie 项目介绍: 数据源端通过ftp服务将用户上网记录以文件的形式,上传到我们的采集机对应的目录下,通过脚本定时将数据Put到Hdfs上。 编写MapReduce对电信的离线话单数据进行分析,统计用户使用业务(流量套餐、话费套餐、铃声套餐等)情况,感知用户使用行为和使用习惯,确定移动业务推广走向的一套系统。使用Oozie调度。主要统计的指标有: 1、通话时长和流量统计,最长延迟1小时。 2、app下载Top N排名,每小时统计一次。 3、业务使用量实时统计,完成业务使用量实时排名和预警。 职责描述: 1、编写shell脚本,将用户上传到采集机上的原始数据上传到hdfs上。 2、编写MapReduce代码对hdfs话单流量数据进行统计。 3、编写Spark代码离线计算App下载排名。
1120大数据
比较小型的项目,对接各种数据,基于历史数据分析预测值,灵活配置多种数据源; 数据处理逻辑整体是由个人独立完成
1180大数据
对抓取的数据进行了归纳整理,并整理出有效的数据, 做详细的数据归纳分类,并做了部分的情感分析等。利用了python的panda库对整体项目做了数据的分析和总结。
920大数据
运营商天津大数据维护组成员,组内共计 11 人,小组维护包含传统经分业务、大 数据业务、大数据营销业务等,包含 Oracle 业务库、ETL 平台、大数据 Universe 数 据治理平台、UDM 大数据营销等平台的维护。 1. 维护现网大数据软件,推动现网问题定位。 2. 实施现网生产床升级、测试床搭建,业务系统日常使用维护等。
1710
大数据支持组成员,组内共计 8 人,维护包括态势感知、日志审计、安全分析 与管理系统等三款大数据业务产品的二线技术支持工作。 1. 负责一线交付和维护中遇到问题的处理,包括不限于安装、升级、故障处理、产品咨询等 场景下的支持动作。 2. 负责对接产品线完成产品质量 BUG 运营例会、技术需求评审等。 3. 以交付代表参与产品每个在研版本的相关事宜评审,包括新版本文档手册、遗留 BUG、 性能报告、新版本能力导入安排等。 4. 组织内部知识库的周期性串讲,及新案例和方案内容的审核。 5. 按照产品的维护情况,周期性审视共性问题,从挖掘到处理最后到场景化处理分析总 结,降低共性问题的发生频率。
1520
基于NiFi、PDI、DataX等数据接入引擎,提供完整的数据预处理能力。提供针对数据源的多元异构数据处理能力,针对业务的模板流程处理能力。具有元数据管理、数据源监控、数据流转换监控、模板生成、消息管理等功能模块。
1010Java
使用Mapreduce技术,离线分析形式,关联维表数据,读取15T左右压缩后日志,一次输出多种结果 内部项目不便截图展示,截两个调用图例
1050Java
运营商业务大数据组成员,组内共计 7 人,维护大数据数据分析数据治理平台、 大数据营销平台、大数据 BDPaaS 平台等三款大数据组件的技术支持工作。 1. 负责一线在交付和维护中所遇问题处理和推动,周期审视共性问题推动产品优化。 2. 为各局点下发巡检任务并审视巡检结果推动优化整改。 3. 对基于平台(Hadoop 组件、 ETL、数据库等)相关变更操作的评审。 4. 维护内网知识库平台,完成案例的审核、分类汇总,各类材料审核整理上传等工作。
1290大数据
1.后端功能开发。 2.项目协调。 3.数据整理、清洗、入库。 4.项目上线、日常维护。 5.微服务搭建。 6.数据结构设计。 7.匹配算法调优。
880大数据
当前共442个项目
×
寻找源码
源码描述
联系方式
提交