点击空白处退出提示
作品详情
该项目是以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台,为各个系统抓取网站数据而生,支
持html网页数据提取,PDF内容提取等,详情见技术要点;
项目职责:
1、担任项目负责人,搭建框架,统筹整个项目日常工作;
2、封装集成常用拓展组件,便捷式可视化流程图拖拽开发;
3、部署环境,处理日常生产bug,培养新人,分发日常工作任务;
技术要点:
1、支持Xpath/JsonPath/css选择器/正则提取/混搭提取。
2、支持JSON/XML/二进制格式。
3、支持多数据源、SQL select/selectInt/selectOne/insert/update/delete;
4、支持爬取JS动态渲染(或ajax)的页面;
5、支持动态代理,防止固定IP被封。
6、支持自动保存至数据库/文件。
7、常用字符串、日期、文件、加解密等函数。
8、任务监控,任务日志。
9、支持HTTP/HTTPS接口。
10、支持Cookie自动管理。
11、支持自定义函数。
12、支持pdf数据提取。
拓展组件:
Selenium插件、Redis插件、OSS插件、Mongodb插件、IP代理池插件、OCR识别插件
、电子邮箱插件、elasticsearch
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论