项目名称:通过异步爬虫爬取国外IMDB,烂番茄,国内豆瓣,阳光电影等知名电影网站,构建mysql数据库项目描述:对高通量测序数据进行数据分析时,需要对类型以及评分数据进行相关性筛选,为此需要构建基于评论页面详情进行爬取,抓取内容包括基因评论主体,评分,评论者,评论时间等。爬取结果存储于mysql。我的职责1,采用asyncio+aiohttp以达成高并发,异步请求。2,使用proxies国外代理,通过timeout设置超时重发机制,因为IMDB,与烂番茄是国外网站,防止因为网络卡顿导致页面抓取不到产生数据不全的现象。3,通过继承aiohttp.ClientSession类来保存cookie对象,以应对基于cookie的反扒策略4,使用xpath进行页面解析,解析出的数据通过PyMysql模块存储于mysql数据库中声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论