原文:https://blog.csdn.net/zxcvbnmlpzc
- 1、HTTP:超文本传输协议,是一种发布和接收html页面的方法,服务器端口号是80端口;
HTTPS:HTTP协议的加密版本,在HTTP下加入了SSL层。端口号是 443 端口。
2、URL:统一资源定位符。有以下几部分组成:
scheme://host:port/path/?query-string=xxx#anchor
scheme:代表的是访问协议,一般为HTTP或者HTTPS以及ftp等;
host:主机名,域名,比如www.baidu.com;
port:端口号。
path:查找路径
query-string:查询字符串。比如https://mp.csdn.net/mdeditor#,后面的mdeditor就是查询字符串
anchor:锚点,后台一般不用管,前端用来做页面定位的。
3、HTTP协议中,常用的的请求方法:get请求
post请求
4、请求头常见参数:在HTTP协议中,向服务器发送一个请求,数据分为三部分,第一个是把数据放在URL中,第二个是把数据放在body中(在post请求中,如浏览器的form data),第三个就是把数据放在head 中。介绍3个请求头参数:
User-Agent:浏览器名称。请求一个网页时,服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求,那我们的User-Agent就是python,这对于那些有反爬虫机制的网站来说,可以轻易的判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值,来伪装我们的爬虫。
Referer:表明你这个请求是从哪个URL过来的。这个一般也可以用来做反爬虫机制,如果不是从指定页面过来的,那么就不做相应的响应。
cookie:HTTP协议是无状态的。也就是同一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。因此这时就用cookie来做标识。一般如果想要做登陆后才能访问的网站,那么就需要发送cookie信息了。
5、常见响应状态码:
200:请求正常,服务器正常的返回数据。
301:永久重定向。 比如在访问www.jngdong.com 的时候会重定向到 www,jd.com 。
302:临时重定向。比如在访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面。
400:请求的URL在服务器上找不到。换句话说就是请求URL错误。
403:服务器访问拒绝,权限不够。
500:服务器内部错误。可能是服务器出现bug了。
6、Chrome 抓包工具:
Chrome浏览器是一个非常亲近开发者的浏览器。可以方便的查看网络请求以及发送的参数。对着网页 右键—>检查 。然后就可以打开开发者选项。