医学文章下载

我要开发同款
ACMHIT2022年11月14日
141阅读

作品详情

该项目完全由本人撰写,可以从https://www.cde.org.cn/hymlj/listpage/c723ac5960cee1811b7be33a2acf8224网页上爬取所有的药品说明书。难点在于该网页有infobox,是动态加载的,所以不能用requests库和正则表达式解析,只能用selenium模拟浏览器访问。同时动态加载的网页要等待加载完全,所以在模拟打开网页后需要一定的等待时间。此处用while循环实现了一个动态调整等待时间的方法,而非设定一个固定的等待时间(由于网速的不同,固定的等待时间有时会报错,或导致爬取速度过慢,因为数据太多,有数千条)。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论