电子税务局爬虫

我要开发同款
柑橘2024年03月09日
145阅读
开发技术es6、https、node.js、axios、javascript
所属分类爬虫、数据清洗

作品详情

项目描述:基于Nodejs和Chrome的无头浏览器,以工厂模式搭建针对于不同省份电子税务局网站的爬虫程序。将入库的指标经过解析,生成企业的年度税务报告。
工作内容:
1、对江苏、江西、河南三个省份,分别开发对应的抓取脚本,针对每个数据源根据省份的不同封装相应的抓取逻辑。
2、优化脚本的执行时间,控制在一个半小时内抓取三个年度的数据。
3、优化方式包络不限于:减少sleep的时间、减少重新导航,尽量多的复用page对象,网络不佳时重试机制等。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论