python模块 / Python爬虫 / python记录 · 2019年6月21日

Python爬虫（六）cookie相关的请求处理

之前的文章中讲到，有很多网站为了防止爬虫程序爬网站造成网站瘫痪，所以我们的程序在模拟浏览器访问这些网站时，需要携带一些headers头部信息才能访问，最常见的有User-Agent、referer、cookie参数。那么针对cookie参数的处理，有以下两种方式。

直接携带cookie请求url地址

cookie放在headers中。这种方式与headers中携带User-Agent一样，只需要将cookie字符串放在headers字典中即可。

headers = {'User-Agent': '......',
           'Cookie':'cookie字符串'}
requests.post(url, date, headers=headers)

cookie字典传给cookies参数。这种方式需要新增一个cookie的字典，再将该参数传给cookies参数。写一个简单的例子：Cookie:[email protected]; JSESSIONID=aaasMk1xexHQo77h5hWSw; OUTFOX_SEARCH_USER_ID_NCOO=253932778.30526197; ___rl__test__cookies=1559880583877，“=”左边为参数，“=”右边为值。

Cookie_dirt = { 'OUTFOX_SEARCH_USER_ID'= '[email protected]',
                'JSESSIONID'='aaasMk1xexHQo77h5hWSw',
                'OUTFOX_SEARCH_USER_ID_NCOO'='253932778.30526197',
                '___rl__test__cookies'='1559880583877'
                }
requests.post(url, date, headers=headers, Cookie=Cookie_dirt)

使用session

假如我们现在要登陆一个网站，需要输入用户名（username）和密码（password），那么我们可以先发送一次post请求，获取到cookie，然后再携带cookie请求登陆之后的页面。使用这种方法，我们需要用的session。使用session发送一次请求，那么服务器设置在本地的Cookie，则会直接保存在session中，此时我们再用session.get直接请求登陆后的界面。写一个简单的例子如下：

import requests


#实例化session
s = requests.session()
post_url = '登录界面的url'
headers = {}
post_data = {'username': '',
             'password': ''}
s.post(post_url, headers=headers, post_data=post_data)

#再使用session请求登陆后的页面
url = '登陆后的页面url'
response = s.get(url, headers=headers)

小礼物走一走，来简书关注我

作者：咸甜怪
链接：https://www.jianshu.com/p/cbbf88ef3470
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

相关

标签： Python 爬虫

您可能还喜欢...