大型智能推荐平台

我要开发同款
Cherokee2024年12月23日
412阅读

作品详情

基于数据挖掘的财经领域智能推荐平台。分布式爬虫采集网页、微信、及APP内容、流处理系统实时处理数据入库、离线处理系统对文章及用户行为做数据挖掘、智能推荐系统个性化信息流。包括46个中/后台系统,采用微服务架构。

【技术概要】
● 编程语言:Java、Nodejs、Python、Go。客户端接口/面向业务的后台/爬虫系统使用Nodejs;对内存和性能比较敏感的中台系统使用JAVA;机器学习和数据挖掘使用Python;部分服务和客户端工具使用Go。用Thrift rpc跨语言相互调用,基于ZK的微服务治理。
● 数据仓库:Hbase、Mongodb、Mysql、Redis、Neo4J。Hbase累积新闻数据便于spark大规模的文本挖掘;Mongodb存储新闻内容;Mysql用于事务性业务逻辑数据;Redis高速缓存在各系统中普遍运用;Neo4j图数据用于推荐系统及用户标签数据挖掘。
● 队列系统:RabbitMQ、Kafka、Redis(pubsub),在新闻采集流程、服务端流程、中台系统都充分运用队列系统解决系统解耦及分布式扩展的问题。
● Nodejs分布式爬虫系统,支持爬虫资源调度,phantomjs/chrome headless动态渲染抓取,微信微博抓取,防屏蔽策略,爬虫端运行于ARM开发板,低功耗分布式运行,充分利用ADSL的IP数。
● 类Storm分布式流处理系统,经过文本解析、规整化、打标签、主题分类、提摘要、配图、广告识别、查重复、评分等环节30秒内处理完毕入库前端信息流中可用。
● Spark+Hbase做大规模的文本及用户行为挖掘,如:词向量、词关联、标签发现、用户聚类、主题聚类等。
● Python机器学习项目,如:词语发现、推荐/搜索中的机器学习排序、神经网络模型文章自动配图等。
● 自研实时推荐系统,从兴趣协同过滤、地理位置、用户聚类、关联推荐、兴趣转移多个角度结合机器学习排序取得较好的兴趣推荐效果,根据文章主题聚类和实时推荐效果回馈调整推荐策略解决用户冷启动问题。
● 基于ElasticSearch的搜索系统,根据自有标签库对analyzer/normalization做了定制,排序结合文本相关性、时间、文章质量等因素。
● 面向客户端的后台接口系统采用事件驱动分布式结构,服务端仅接受请求将具体业务处理分发到中台系统,中台系统异步返回结果,服务端再异步返回给客户端。此架构便于根据请求量按需扩展分布式集群规模。
● 面向微信、聊天机器人,开发基于Websocket的对话式交互系统,后台可配置解析规则和动态应答规则(不是固定答案)。
● 基于ROS、Android的聊天机器人、智能手表定制开发。
● 财经雷达系统监测关键信息,实时情报推送手机和智能手表,推拉结合的Feed流。
● 后台流媒体系统支撑沉浸式短视频模块(类似抖音),同时兼容横竖屏,视频预载秒开,研发在线直播室。
● 智能推送系统:个性化内容、个性化推送时间点推送,主流机型(如:华为、小米、oppo)采用系统通道推送,高效送达率。
● 研发微信个人号消息分发系统,及时向用户推送推送财经情报,同时用于公司内部业务操作,对话式处理内容采编、审核、系统预警。
● 客户端反爬虫,后台接口防嗅探策略。
● 用户日志、后台服务日志进入kafka,ELK统计,还有另外自研的BI系统。
● 基于docker,jenkins,k8s的自动化部署和运维。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论