项目分为定位数据源模块、数据爬取模块、数据清洗模块,具体细分有十余个模块。主要实现了从各个政府网站上(预写网站参数,程序读入)爬取其政策法规内容,然后将政策法规条文进行清洗,最终存储到MySql数据库中。主要使用了scrapy框架实现爬虫模块、Flask框架实现数据的前端展示、布隆过滤器实现数据去重。
评论