DrissionPage,即driver和session的合体,是一个基于python的Web自动化操作集成工具。
requests爬虫面对要登录的网站时,要分析数据包、JS源码,构造复杂的请求,往往还要应付验证码、JS混淆、签名参数等反爬手段,门槛较高。若数据是由JS计算生成的,还须重现计算过程,体验不好,开发效率不高。使用selenium,则可以很大程度上绕过这些坑,但selenium效率不高。
因此,这个库将selenium和requests合二为一,不同需要时切换相应模式,并提供一种人性化的使用方法,提高开发和运行效率。除了合并两者,本库还以网页为单位封装了常用功能,简化了selenium的操作和语句,在用于网页自动化操作时,减少考虑细节,专注功能实现,使用更方便。
特性以简洁的代码为第一追求。允许在selenium和requests间无缝切换,共享session。两种模式提供一致的API,使用体验一致。人性化的页面元素操作方式,减轻页面分析工作量和编码量。对常用功能作了整合和优化,更符合实际使用需要。兼容selenium代码,便于项目迁移。使用POM模式封装,便于扩展。统一的文件下载方法,弥补浏览器下载的不足。简易的配置方法,摆脱繁琐的浏览器配置。项目结构
评论