pyrailgun 网页抓取工具开源项目

我要开发同款
匿名用户2013年02月28日
49阅读
开发技术Python
所属分类应用工具、网络爬虫
授权协议MIT

作品详情

这是一个非常简单易用的抓取工具

怎么使用?首先你需要创建一个对应站点的规则文件比如test.json

{"name":"bingsearcher","action":"main","subaction":[{"action":"fetcher","url":"https://www.bing.com/search?q=${@q}","timeout":1,"subaction":[{"action":"parser","subaction":[{"action":"shell","subaction":[{"action":"parser","setField":"title","pos":0,"rule":"a","strip":"true"},{"action":"parser","setField":"description","pos":0,"rule":"p"}],"group":"default"}],"rule":"#results.sa_wr"}]}]}

然后在代码里面把它作为一个任务加入到railgun

fromrailgunimportRailGunrailgun=RailGun()railgun.setTask(file("testsite.yaml"));railgun.fire();nodes=railgun.getShells('default')printnodes

然后你就可以得到一个包含了所有解析后数据的节点列表[{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx},{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx}]

同时支持用webkit内核运行javascript抓取网页,css方式的dom选择方式

跨平台支持windows

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论