1. 项目包含 Web端与爬虫端两大部分,Web主要用于构建分布式爬虫(可自由输入参数),控制爬虫的启动与关闭,展示爬虫爬出的数据,对数据做可视化与一定的数据分析;爬虫端主要设计了淘宝、京东等电商类与CSDN、网易新闻等博客新闻类两种爬虫,电商类主要爬取商品的价格、各项参数、评价,新闻类主要爬取新闻内容。
2. 我主要构建分布式爬虫模块,使用爬虫框架 scrapy 提供的分布式扩展框架 scrapy-redis 来构建分布式爬虫,scrapy-redis 主要是在 scrapy 框架上加入了 redis 模块进行分布式的扩展。使用 Django 框架实现管理端后台,使用 scrapyd 进行爬虫控制,使用 textrank 与 jieba 进行文本摘要与关键字提取,使用 echarts 进行可视化图表展示。