网络爬虫(又称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。本项目应用Python爬虫技术,爬取广东省水利厅网站中 粤水资讯 > 水利百科 > 水利工程的网页(http://slt.gd.gov.cn/slgc8735/index.html)中的标题、标题链接、内容等信息。1.2流程描述①利用浏览器开发者工具,熟悉网页结构,了解所要爬取内容的所在位置;②根据了解内容,编写xpath表达式;③根据所编写的xpath表达式编程实现对目标数据的爬取;④将爬取到的数据做处理后保存到mysql数据库中。1.3项目目标①爬取水利工程页:‘标题’,‘标题链接’,‘标题中的文章内容’②对数据进行必要处理并保存到数据库中。声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论