1.采用GUI界面方式半自动爬取,不限制账号,普通账号也可按次数爬取默认100次。此次数为请求次数,实际获取课题id为每页10*100页等于1000条数据2.手动登陆,弹出浏览器页面可用qq方式登陆,后关闭窗口。获取cookie数据3.爬虫方式使用selenium+PhantomJS无头浏览器方式静默爬取。因PhantomJS只有10M并满足现有功能,就没有使用谷歌火狐无头模式,即便谷歌火狐更好。后期可更换4.目前已爬取真实课题ID为目标的半自动爬虫工具,后期待加入爬取详情页数据。详情页数据每次访问为一个真实请求,并且无账号也可访问。故为第二目标声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论