罗网大数据平台

我要开发同款
雷米米2022年08月03日
186阅读

作品详情

1.项目概述:该项目为公司数据中心部门的项目,由自己申请转入希望学习实践更多知识,主要通过爬虫收集网络热门抖音、微博、小红书等网红数据进行清洗分析,提取出各大广告主需要的精准投放红人的粉丝画像如:粉丝区域分别、性别分别、年龄分别、人群分别等等以及红人的主要信息如:粉丝数,播放量、点赞量、营销额、直播数据等等。为广告主提供快捷方便易用的精准广告投放服务。
2. 涉及的技术:
● springboot、mybatis技术:项目基本架构使用springboot框架,采用前后端分离开发。数据库技术使用mybatis。
● java、python爬虫技术:手机数据的第一步是网络爬虫,本人主要负责微博数据的爬取工作,通过python等技术获取网页数据,通过登录验证,进行元数据的获取 。
●消息队列技术:由于红人数据需要每日更新,爬虫抓取机器与速度有限,所以使用消息队列机制逐个获取任务进行爬取。
●mysql技术:深入了解mysql技术,数据清洗需要处理千万级别的数据,对应数据库的索引与链表查询、分组、排线等技术深入学习实践,生成红人的报表与红人排行日榜周榜月榜等数据。
● redis缓存技术:由于数据库是千万数据所有查询比较慢,为了提供良好的用户体验,每次清洗完数据把榜单等数据存入缓存,并对每日第一次请求红人详情数据也存入缓存,以加快用户访问速度
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论