全部动态开源项目源文件源码产品系统 Java Python C/C++PHP C#TypeScript Go Swift 更多

大数据

“大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

智网大数据平台(2018.07-2018.12)

项目名称：智网大数据平台(2018.07-2018.12) 开发环境：SecurceCRT、Centos7.2 主要技术：Shell、Jenkins 项目介绍：在大数据时代的环境下，公司需要有效利用多源、多结构数据，安全地进行数据加工和增值，建设公司自有数据能力并进行转化。因此公司对于大数据平台的数据生产（汇聚存储多源数据、自动化清洗与入库）、分析加工能力（公司经营分析报告、公司数据洞察报告）、数据安全（严格保证数据安全、多租户环境用户控制）和能力开放（多样化对外开放能力、平台能力模块化租赁）四个方面有极高的需求。 职责描述： 1、编写shell脚本每天定时采集接口机数据并入库到Impala数据库中。接口机数据包括JPO、AMSP、廊坊。 2、负责在线商店、TBOSS等结构化数据采集到Impala数据库中。 3、编写shell脚本对AMSP数据进行数据清洗操作。 4、编写shell脚本对接口机数据、入库后Impala表中的数据进行监控。 5、通过Jenkins对服务器之间的脚本进行作业调度与监控。 6、周期性检查每天的数据是否都入库，对于缺失的数据采取对应的措施。

1420大数据

公交行业管理

智慧城市中的公交相关的业务功能主要包括车基础数据管理，动态运营监测，行业辅助决策，能源消耗监测，客流分析，运营分析，成本分析，线路规划，区域分析等

1280大数据

2020认知智能研究院平台

1、项目模块: 首页轮播，算法介绍，算法演示，新闻动态，机器翻译，帮助中心和用户中心 2、本人负责：算法介绍、算法演示、用户中心技术栈：SpringMVC+Mybatis、Jquery、Mysql、Redis、Tomcat、Dubbo、Zookeeper 成果：1.为客户私人定制服务 2.获得领导一致好评 3.难点：算法效率有待提高

1660echarts

足球文字直播

每天对国外足球赛事进行文字直播；通过国外接口，定时脚本循环读取接口，将获取到的数据转换为多种外语进行展示；通过接口获取数据生成JSON文件，前端循环读取文件，展示数据；详情请看：https://wlive.7m.com.cn/

2230大数据

网站日志分析系统(2016.08-2017.04)

项目名称：网站日志分析系统(2016.08-2017.04) 开发环境：Eclipse、Mysql、Maven、Jdk 主要技术：实时：Storm、Kafka、Mysql 离线分析：Flume、Hdfs、MapReduce、Redis、Hive、Sqoop、kettle、Mysql 项目介绍：根据网站的Access、UGC日志，分App维度、总的，离线统计每天的UV、PV、登录人数、次日留存和七日留存。根据用户实时产生的UGC日志，分App维度、总的，实时统计用户每分钟一次的充值和消费情况。离线分析：整个离线处理流程使用kettle监控任务并调度。 1、数据采集：将用户的Access、Ugc等日志通过Flume采集，按天和业务分目录存储到HDFS上。 2、数据清洗：每天定时通过MR清洗前一天的原始日志数据，Load到Hive表中。 3、数据分析：编写Hive语句和Shell脚本统计指标，并将统计之后的指标使用Sqoop导入到Mysql，使用Kettle将Mysql中与hive表对应的

1650大数据

数据分析

对抓取的数据进行了归纳整理，并整理出有效的数据，做详细的数据归纳分类，并做了部分的情感分析等。利用了python的panda库对整体项目做了数据的分析和总结。

1210大数据

公司内项目

使用Mapreduce技术，离线分析形式，关联维表数据，读取15T左右压缩后日志，一次输出多种结果内部项目不便截图展示，截两个调用图例

1240Java

比价平台(2017.12-2018.06)

项目名称：比价平台(2017.12-2018.06) 开发环境：Eclipse、Tomcat7、JDK1.7 主要技术：Httpclient、Htmlcleaner、Xpath、Hbase、Redis、Solr、SpringMvc、jquery、Echarts、Zookeeper、Ganglia 项目介绍：该项目主要是抓取京东、易迅、国美、苏宁等电商网站的商品，获取商品的标题、价格、规格参数等信息，在前台界面为用户提供商品搜索查询，以及商品比价等功能。项目主要分为6个模块：数据下载层、数据解析层、数据存储层、数据处理层、数据展现层、系统监控层。 项目问题：ip被封，网站页面结构变动。 职责描述： 1、负责商城的数据爬取收集，从电商页面，解析出商品的明细信息，商品的价格，商品的图片等信息 2、负责系统的监控，利用zookeeper对集群中的各个节点进行监控，当其中的有节点宕机了，会用邮件通知运维人员进行相应的处理 3、负责将获取来的数据信息存放到hbase数据库中，并且对数据建立索引等操作

1410大数据

安全大数据

大数据支持组成员，组内共计 8 人，维护包括态势感知、日志审计、安全分析与管理系统等三款大数据业务产品的二线技术支持工作。 1. 负责一线交付和维护中遇到问题的处理，包括不限于安装、升级、故障处理、产品咨询等场景下的支持动作。 2. 负责对接产品线完成产品质量 BUG 运营例会、技术需求评审等。 3. 以交付代表参与产品每个在研版本的相关事宜评审，包括新版本文档手册、遗留 BUG、性能报告、新版本能力导入安排等。 4. 组织内部知识库的周期性串讲，及新案例和方案内容的审核。 5. 按照产品的维护情况，周期性审视共性问题，从挖掘到处理最后到场景化处理分析总结，降低共性问题的发生频率。

1860

数据接入平台

基于NiFi、PDI、DataX等数据接入引擎，提供完整的数据预处理能力。提供针对数据源的多元异构数据处理能力，针对业务的模板流程处理能力。具有元数据管理、数据源监控、数据流转换监控、模板生成、消息管理等功能模块。

1370Java

智慧听鉴

智慧听鉴主要是正对录音的语句转文字、错别字纠正、热词统计等功能 1、智慧听鉴的核心功能主要分为质检和报表 2、质检的功能主要是对录音内容进行分析，判断是否按照话术来讲，或者有没有讲违规信息，最后打分 3、报表属于质检后的一个功能，它只要是对质检后的信息做一些数据趋势分析，比如：录音时长，质检得分趋势，热词排行榜等等。

3400大数据

某大数据研判系统

1 主要功能：地图可视化分析、技战法分析、关系网络分析等 2 使用springboot、springcloud技术体系，结合mpp并行处理数据库对大数据进行相关分析 3 本人为软件交付经理，负责软件总体设计并参与模块开发

1230

运营商大数据平台

运营商业务大数据组成员，组内共计 7 人，维护大数据数据分析数据治理平台、大数据营销平台、大数据 BDPaaS 平台等三款大数据组件的技术支持工作。 1. 负责一线在交付和维护中所遇问题处理和推动，周期审视共性问题推动产品优化。 2. 为各局点下发巡检任务并审视巡检结果推动优化整改。 3. 对基于平台(Hadoop 组件、 ETL、数据库等)相关变更操作的评审。 4. 维护内网知识库平台，完成案例的审核、分类汇总，各类材料审核整理上传等工作。

1640大数据

大数据维护

运营商天津大数据维护组成员，组内共计 11 人，小组维护包含传统经分业务、大数据业务、大数据营销业务等，包含 Oracle 业务库、ETL 平台、大数据 Universe 数据治理平台、UDM 大数据营销等平台的维护。 1. 维护现网大数据软件，推动现网问题定位。 2. 实施现网生产床升级、测试床搭建，业务系统日常使用维护等。

2320

数据抓取源文件源码

抓取了pico官网论坛指定时间段的评论，并做数据分析，利用了python的代码实现，框架用的scrapy, 过程分析了网站动态加载数据的规律，最终抓取了指定月份的数据，并进行了有效的数据分析。

1090大数据

基于Netflow技术网间流量分析

一款基于Netflow数据的流量分析系统，可实现对流量流向、DDoS攻击、路由设备接口流量等分析。产品基于大数据集群，使用spark技术，稳定运行在运营商级别网络环境；个人负责后台部分代码开发，以及运行配置调优，解决日增量20T数据稳定处理

1320通信

数据的高度分析源文件源码

对用python接口和数据挖掘到的数据进行了深度的分析，并提取关键词之后，对数据表格进行了多级分类，删除无用数据，对数据进行了过滤和分析，并产生最后的分析结果。

1200大数据

预测值分析

比较小型的项目，对接各种数据，基于历史数据分析预测值，灵活配置多种数据源；数据处理逻辑整体是由个人独立完成

1400大数据

移动终端上网数据离线分析处理系统（电信项目）(2016.01-2016.07)

项目名称：移动终端上网数据离线分析处理系统（电信项目）(2016.01-2016.07) 开发环境：Eclipse、Jdk1.7、Maven 主要技术：HDFS、Mapreduce、Hive、Spark、SparkStreaming、Sqoop、Impala、Oozie 项目介绍：数据源端通过ftp服务将用户上网记录以文件的形式，上传到我们的采集机对应的目录下，通过脚本定时将数据Put到Hdfs上。编写MapReduce对电信的离线话单数据进行分析，统计用户使用业务（流量套餐、话费套餐、铃声套餐等）情况，感知用户使用行为和使用习惯，确定移动业务推广走向的一套系统。使用Oozie调度。主要统计的指标有： 1、通话时长和流量统计，最长延迟1小时。 2、app下载Top N排名，每小时统计一次。 3、业务使用量实时统计，完成业务使用量实时排名和预警。 职责描述： 1、编写shell脚本，将用户上传到采集机上的原始数据上传到hdfs上。 2、编写MapReduce代码对hdfs话单流量数据进行统计。 3、编写Spark代码离线计算App下载排名。

1300大数据