主要使用scrapy爬取不同表情包网站的表情图片,并存入mysql数据库,使用crontab实现不同时间的定时增量爬取,使用md5和tensorflow实现过滤和去重,采用md5去重和tensorflow去重,并把两种去重部署到两个服务器,使用rabbitmq来做消息队列。对过滤后的图片存入数据库和删除。
评论