CatGate 基于浏览器的爬虫框架开源项目

我要开发同款
匿名用户2017年06月28日
68阅读
开发技术PHPHTML/CSS
所属分类网络爬虫、应用工具
授权协议CC

作品详情

CatGate是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入,能最真实的模仿用户行为和特征。

演示视频

https://weibo.com/1088413295/F9P1izhY2

功能

①CatGate会访问这个URL,这个URL应该返回一个Json格式的数组,每一个元素一个字符串(即网址)。点②按钮即可载入数据,并可按③进行查看,会自动排重。

⑤CatGate抓取到数据后,会直接POST给这个URL,key为content,通过$_REQUEST['content']即可获取抓取内容。

⑥默认一秒抓取一次,如果抓取失败太多,可以增加秒数。

④这是一个高级用法,就是①这个URL可以不停的新增URL,CatGate会自动每隔一秒(可设置)去抓取并合并进来。

Demo

进入 php 目录,运行 php-Slocalhost:8000 即可测试。

list.php这个页面生成了要抓取的页面列表,默认是微博收藏的页面。

save.php这个页面定义了如何处置抓到的数据,默认是保持成为文件。

安装插件

如果你不想或不能在Chrome商店安装插件,可手工安装。

chrome>extentsion>loadunpackedextension>./ext

License

CC,保留签名、非商用。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论