PHP-spider开源项目

我要开发同款
滔哥2014年05月01日
41阅读
开发技术PHP
所属分类应用工具、网络爬虫
授权协议GPL

作品详情

一个可扩展的PHPWEB蜘蛛,示例代码:

use VDB\Spider\Spider;use VDB\Spider\Discoverer\XPathExpressionDiscoverer;$spider = new Spider('https://www.oschina.net');

特性:

supportstwotraversalalgorithms:breadth-firstanddepth-first

supportsdepthlimitingandqueuesizelimiting

supportsaddingcustomURIdiscoverylogic,basedonXPath,CSSselectors,orplainoldPHP

comeswithausefulsetofURIfilters,suchasDomainlimiting

supportscustomURIfilters,bothprefetch(URI)andpostfetch(Resourcecontent)

supportscustomrequesthandlinglogic

comeswithausefulsetofpersistencehandlers(memory,file.Redissoontofollow)

supportscustompersistencehandlers

collectsstatisticsaboutthecrawlforreporting

dispatchesusefulevents,allowingdeveloperstoaddevenmorecustombehavior

supportsapolitenesspolicy

willsooncomewithmanydefaultdiscoverers:RSS,Atom,RDF,etc.

willsoonsupportmultiplequeueingmechanisms(file,memcache,redis)

willeventuallysupportdistributedspideringwithacentralqueue

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论