spider-web是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。
其中配置文件格式为:
<?xmlversion="1.0"encoding="UTF-8"?><content><urltype="simple"><!--simple/complex--><url_head>https://www.oschina.net/tweets</url_head><url_start></url_start><url_end></url_end><url_suffix></url_suffix></url><analysistype="list"><!--single/list--><elemname="title"><attrtype="key"num="1"><!--tag/class/key--><name>link</name><!--$https://my.oschina.net/(.)*--><pro>https://my.oschina.net/(.)*/[0-9]*</pro></attr><attrtype="class"num="2"><!--tag/class/key--><name>tweet</name><pro>a</pro></attr><attrtype="class"num="3"><name>txt</name><pro>a</pro></attr><attrtype="tag"num="4"><name>a</name><pro>a</pro></attr></elem><elemname="content"><attrtype="key"num="1"><!--tag/class/key--><name>link</name><!--$https://my.oschina.net/(.)*--><pro>https://my.oschina.net/(.)*/[0-9]*</pro></attr><attrtype="class"num="2"><!--tag/class/key--><name>tweet</name><pro>a</pro></attr><attrtype="class"num="3"><name>txt</name><pro>a</pro></attr></elem></analysis><targettype="download"><!--download/text--></target></content>根据不同的页面进行设置,可以支持比较流行的页面爬取。
评论