爬虫_系统开发案例-程序员客栈

爬虫主要使用的是java和python语言，java语言是Python语言写爬虫的最大竞争对手。Python与java相比有很多优点，利用python写爬虫程序比较简洁，高效。python含有第三方urllib库，一个最基本的网络请求库，是用来写爬虫的好工具。学习用Python语言爬虫必须要对python的基本语法规则要有一定的了解。我在大一寒假的时候学习过python语言的一些基本语法知识，当时还照着书做过一个用python语言写的游戏。差不多都一年半没碰过python语言，我在图书馆找了一本《一天学会python》的书，用了两个多小时看完了，对Python语言的一些基本语法规则及使用更加熟悉了。然后我就开始了我的爬虫之旅。

开始爬虫之前有些基础知识必须知道，这些知识是爬虫必须知道的基础知识：

1、http协议：超文本传输协议，一种发布和接收HTML页面的方法，80端口，浏览器一般默认的都是80端口

2、https协议：http协议的加密版本，在http下加入ssl层，443端口

3、URL详解：统一资源定位符（就是浏览器上方的网址）一个URL一般由以下几个部分组成：

scheme：//host:port/path/?query-sting=xxx#anchor

scheme:协议一般为http、https、ftp

host:主机名或者域名例如www.baidu.com或者IP地址，域名是IP地址的简称

port：端口号，浏览器一般默认80端口

path：查找路径

query-sting=xxx:查询字符串例如wd=python

anchor:锚点，前端用来做页面定位

在浏览器中请求一个URL，浏览器会对URL进行一个编码，除英文，数字和部分符号外，其他的全部使用百分号+十六进制码值进行编码。在urllib库里面有urlencode()函数对中文，符号进行编码，parse_qs()函数对中文、符号进行解码。

4、http常用请求方法：

post:向服务器发送数据、上传数据，对服务器产生影响

get:只能从服务器获取数据，不会对服务器产生影响

http请求方法详解

5、http协议常见响应状态码

200：请求正常，服务器正常返回（数据不一定正确）

301：永久重定向

302：临时重定向

400：请求的URL找不到，URL错误

403：服务器拒绝访问

404：not found

500：内部服务器错误

爬虫

功能介绍

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐