在线爬虫系统

我要开发同款
木木木杉2024年02月04日
82阅读
开发技术mysqljavascriptcss、html5、python
所属分类web、数据可视化、爬虫

作品详情

1. 项目包含 Web端与爬虫端两大部分,Web主要用于构建分布式爬虫(可自由输入参数),控制爬虫的启动与关闭,展示爬虫爬出的数据,对数据做可视化与一定的数据分析;爬虫端主要设计了淘宝、京东等电商类与CSDN、网易新闻等博客新闻类两种爬虫,电商类主要爬取商品的价格、各项参数、评价,新闻类主要爬取新闻内容。
2. 我主要构建分布式爬虫模块,使用爬虫框架 scrapy 提供的分布式扩展框架 scrapy-redis 来构建分布式爬虫,scrapy-redis 主要是在 scrapy 框架上加入了 redis 模块进行分布式的扩展。使用 Django 框架实现管理端后台,使用 scrapyd 进行爬虫控制,使用 textrank 与 jieba 进行文本摘要与关键字提取,使用 echarts 进行可视化图表展示。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论