GG02412023年02月27日
510阅读
所属分类爬虫

作品详情

爬虫主要使用的是java和python语言,java语言是Python语言写爬虫的最大竞争对手。Python与java相比有很多优点,利用python写爬虫程序比较简洁,高效。python含有第三方urllib库,一个最基本的网络请求库,是用来写爬虫的好工具。学习用Python语言爬虫必须要对python的基本语法规则要有一定的了解。我在大一寒假的时候学习过python语言的一些基本语法知识,当时还照着书做过一个用python语言写的游戏。差不多都一年半没碰过python语言,我在图书馆找了一本《一天学会python》的书,用了两个多小时看完了,对Python语言的一些基本语法规则及使用更加熟悉了。然后我就开始了我的爬虫之旅。

开始爬虫之前有些基础知识必须知道,这些知识是爬虫必须知道的基础知识:

1、http协议:超文本传输协议,一种发布和接收HTML页面的方法,80端口,浏览器一般默认的都是80端口

2、https协议:http协议的加密版本,在http下加入ssl层,443端口

3、URL详解:统一资源定位符(就是浏览器上方的网址)一个URL一般由以下几个部分组成:

scheme://host:port/path/?query-sting=xxx#anchor

scheme:协议一般为http、https、ftp

host:主机名或者域名例如www.baidu.com或者IP地址,域名是IP地址的简称

port:端口号,浏览器一般默认80端口

path:查找路径

query-sting=xxx:查询字符串例如wd=python

anchor:锚点,前端用来做页面定位

在浏览器中请求一个URL,浏览器会对URL进行一个编码,除英文,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码。在urllib库里面有urlencode()函数对中文,符号进行编码,parse_qs()函数对中文、符号进行解码。

4、http常用请求方法:

post:向服务器发送数据、上传数据,对服务器产生影响

get:只能从服务器获取数据,不会对服务器产生影响

http请求方法详解

5、http协议常见响应状态码

200: 请求正常,服务器正常返回(数据不一定正确)

301:永久重定向

302:临时重定向

400:请求的URL找不到,URL错误

403:服务器拒绝访问

404:not found

500:内部服务器错误
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论