在HTTP协议中,post提交的数据必须放在消息主体中,但是协议中并没有规定必须使用什么编码方式,从而导致了 提交方式 的不同。服务端根据请求头中的 Content-Type 字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析。
具体的编码方式包括如下:
- application/x-www-form-urlencoded # 以form表单形式提交数据,最常见也是大家最熟悉的 - application/json # 以json串提交数据。 - multipart/form-data # 上传文件
下面使用requests来发送上述三种编码的POST请求。
1.提交Form表单
requests提交Form表单,一般存在于网站的登录,用来提交用户名和密码。以 http://httpbin.org/post 为例,在requests中,以form表单形式发送post请求,只需要将请求的参数构造成一个字典,然后传给requests.post()的data参数即可。
代码如下:
url = 'http://httpbin.org/post' d = {'key1': 'value1', 'key2': 'value2'} r = requests.post(url, data=d) # requests.post() 中利用 data 属性 print r.text
输出效果如下:
{ "args":{}, "data":"", "files":{}, "form":{"key1":"value1","key2":"value2"}, "headers":{"Accept":"*/*","Accept-Encoding":"gzip, deflate", "Connection":"close", "Content-Length":"23", "Content-Type":"application/x-www-form-urlencoded", "Host":"httpbin.org", "User-Agent":"python-requests/2.12.3"}, "json":null, "origin":"113.140.11.122", "url":"http://httpbin.org/post" }
httpbin.org 网站可以显示你提交请求的内容,输出的”Content-Type”:”application/x-www-form-urlencoded”,证明这是提交Form的方式。
2.提交json串
对于提交json串,主要是用于发送ajax请求中,动态加载数据。以拼多多网站为例,加载商品的方式为ajax,商品的内容在响应中。
下面把请求头和请求实体列举一下:
错误写法:
打印的内容如下
{"success":false,"errorCode":4000000,"errorMsg":"System Error","result":null}
即使写上了 ‘Content-Type’:’application/json; charset=UTF-8′ ,返回依然出错了,原因就在于 你的请求实体的格式错了,服务端无法解码。
正确写法1:
正确代码是把data进行json编码,再发送。代码如下:
r = requests.post(url=url,data=json.dumps(data),headers=headers) # 利用 json 对 字典序列化
这个时候再看一下打印内容,已经正确返回商品内容了
正确写法2:
处理将data主动编码为json发送之外,requests还提供了一个json参数,自动使用json方式发送,而且在请求头中也不用显示声明 ‘Content-Type’:’application/json; charset=UTF-8’。
完整代码如下:
3.上传文件:
上传文件在爬虫中使用的很少,不过还是使用requests讲解一下使用方式。Content-Type类型为multipart/form-data,以multipart形式发送post请求,只需将一文件传给 requests.post() 的 files参数 即可。还是以 http://httpbin.org/post 为例,代码如下:
url = 'http://httpbin.org/post' files = {'file': open('upload.txt', 'rb')} r = requests.post(url, files=files # 文件传给 requests.post() 的 files 参数 print(r.text)
参考链接: https://blog.csdn.net/qiye_/article/details/80380955
son和dict
python中的dict类型要转换为json格式的数据需要用到json库:
import json
<json> = json.dumps(<dict>)
<dict> = json.loads(<json>)
需要注意的是python中并没有json类型这一说法,通过json.dumps(<dict>)
转换的字典对象,最后得到的是一个字符串对象,也就是说,在python中json格式的数据实际上就是一个字符串
>>> j = json.dumps(<dict>)
>>> type(j)
<class 'str'>
虽说json格式的数据在python中是以字符串的类型存在的,但是通过str(<dict>)
工厂函数所得到的结果同json.dumps(<dict>)
方法所得到的结果是不相同的
>>> d = {'a': 1, 'b': 2} >>> d_d = {"a": 1, "b": 2} >>> string = str(d) >>> string_d = str(d_d) >>> js = json.dumps(d) >>> js_d = json.dumps(d_d) >>> string == string_d True >>> js = js_d True >>> string == js False >>> string "{'a': 1, 'b': 2}" >>> js '{"a": 1, "b": 2}'
可以看出来string
和js
的区别在于引号。对于可以作为json.loads(<str>)
参数对象的字符串,除了要满足字典类型的格式外,所有的字符串对象必须是双引号。
requests.post()
在通过requests.post()进行POST请求时,传入报文的参数有两个,一个是data,一个是json。
常见的form表单可以直接使用data参数进行报文提交,而data的对象则是python中的字典类型;
而在最新爬虫的过程中遇到了一种payload报文,是一种json格式的报文,因此传入的报文对象也应该是格式的;这里有两种方法进行报文提交:
import requests import json url = "http://example.com" data = { 'a': 1, 'b': 2, } # 1 requests.post(url, data=json.dumps(data)) # 2-json参数会自动将字典类型的对象转换为json格式 requests.post(url, json=data)
其它
在requests.get()方法中可以使用params参数来构建url
有时候请求得到的结果可能呈现乱码的状态,可以通过resp.encoding属性查看网页编码方式,同时可以在获取resp.text之前对resp.encoding=’utf-8’赋值,这样再次获取的resp.text则会使用我们要求的编码方式。
作者:wangfp
链接:https://www.jianshu.com/p/9095a27b1bf2
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。