软件架构:springcloud+mybatis+redis+hadoop+kettle+mysql+elasticsearch+hugegraph开发环境:idea+maven+git+jdk 项目描述: 该项目是与朋友一起在空闲时间做的一个产业类新闻推荐项目,项目主要聚焦于水泥及水泥的各种原材料相关产业的新闻网站,产业类新闻网站目前比较少,主要是想弥补这方面的不足;新闻文章分数据来源有两类:平台用户发表、爬虫采集产业新闻;新闻的推荐主要是收集用户行为,然后划分权重比例计算之后进行推送。责任描述:1.负责文章检索服务。2.负责机房数据同步。3.负责大数据平台建设、维护、数据处理。4.负责上线后系统维护、功能扩展。开发步骤:1.sringboot集成elasticsearch,并提供文章检索接口。2.大数据系统建设;使用hdp搭建hadoop大数据系统,集成hue组件;基于hive创建数据模型,使用kettle设计数据抽取任务,完成对文章、用户行为数据定时抽取到hive的数据流程。3.机房数据同步分为往线上推、从线上拉;线上机房在北京、线下机房成都;线下机房承载爬虫采集数据、大数据系统、新闻推荐算法在线下机房运行;线上机房运行业务系统,产生的数据有用户、行为、用户发表的文章数据。往线上推的数据主要有:爬虫采集的新闻文章、推荐算法生成的待推荐结果数据,这部分数据通过kettle定时任务定时增量推送到线上。从线上拉的数据主要采用mysql主从备份的机制实现,在线下机房建立备库用于实时备份线上数据。4.数据汇入hive,线下的文章数据使用kettle定时导入,线上的文章、行为、用户数据备份到下线之后,再通过kettle定时任务导入到hive。使用HugeGraph图数据库构建强关联的图数据,用于用户与用户之间推荐,即朋友的朋友也是朋友;编写python脚本用于将数据定时导入到HugeGraph。声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论