点击空白处退出提示
作品详情
开始爬虫之前有些基础知识必须知道,这些知识是爬虫必须知道的基础知识:
1、http协议:超文本传输协议,一种发布和接收HTML页面的方法,80端口,浏览器一般默认的都是80端口
2、https协议:http协议的加密版本,在http下加入ssl层,443端口
3、URL详解:统一资源定位符(就是浏览器上方的网址)一个URL一般由以下几个部分组成:
scheme://host:port/path/?query-sting=xxx#anchor
scheme:协议一般为http、https、ftp
host:主机名或者域名例如www.baidu.com或者IP地址,域名是IP地址的简称
port:端口号,浏览器一般默认80端口
path:查找路径
query-sting=xxx:查询字符串例如wd=python
anchor:锚点,前端用来做页面定位
在浏览器中请求一个URL,浏览器会对URL进行一个编码,除英文,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码。在urllib库里面有urlencode()函数对中文,符号进行编码,parse_qs()函数对中文、符号进行解码。
4、http常用请求方法:
post:向服务器发送数据、上传数据,对服务器产生影响
get:只能从服务器获取数据,不会对服务器产生影响
http请求方法详解
5、http协议常见响应状态码
200: 请求正常,服务器正常返回(数据不一定正确)
301:永久重定向
302:临时重定向
400:请求的URL找不到,URL错误
403:服务器拒绝访问
404:not found
500:内部服务器错误
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论