可视化信息采集系统

我要开发同款
proginn19401537722021年11月27日
222阅读

作品详情

账号:nm,. 密码:zxasqw12

● 系统特点:无需代码知识便可以完成网页的抓取脚本。可以自动在从机部署爬虫并分配任务。

● 使用技术:thinkphp6、mysql、nginx、python、docker。

● 爬虫脚本录制:使用selenium ide录制脚本。

● 用户可以将录制的脚本粘贴到python 编写的GUI中,并对脚本进行检查和运行。会将脚本内的问题显示在脚本运行日志中,如果脚本通过测试,该python程序会自动上传脚本,并标注上传该脚本的用户。

● 后台系统可以查看用户每日脚本上传数据,以及该用户脚本的运行情况。

● 用户可以在脚本中添加自定义数据,例如:账号、密码、cookie等。

● 系统管理员可以控制每个脚本每日最大的运行次数,以及用户每日的运行总次数。

● 后台会管理每一台从机,并为其分配需要执行的任务。其中每次分配的任务可以分配用户上传的自定义数据。

● 监控每一条任务的运行情况,对运行的失败的任务会进行脚本检查。

● 使用docker将python爬虫端代码封装成镜像。

● 将多个服务器组成内网docker集群,并搭建docker本地化仓库。

● 编写linux脚本用于docker环境的自动化部署,并将服务器加入集群中。

● 使用docker swarm对所有集群从机进行爬虫的批量化部署。

● 爬虫端会向后台请求任务、执行任务、并返回任务的执行情况和数据
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论