Python爬虫之Scrapy框架介绍

Scrapy框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常方便。
Scrapy使用了Twisted（其主要对手是Tornado）异步网络框架来处理网络通讯，可以加快我们的下载速度，不用我们去实现异步框架，而且包含了各种中间件接口，可以灵活的完成各种需求。

Scrapy架构图（绿线是数据流向）

Scrapy Engine（引擎）：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler（调度器）：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排序，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine发送的所有Request请求，并将其获取到的Responses交还给Scrapy Engine，由引擎交给Spider来处理。
Spider（爬虫）：它负责处理所有Responses，从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler。
ItemPipeline（管道）：它负责处理Spider中获取到的Item，并进行后期处理（详细分析、过滤、存储等）的地方。
Downloader MiddleWares（下载中间件）：你可以当做是一个自定义扩展下载功能的组件。
Spider MiddleWares（爬虫中间件）：你可以理解为是一个可以自定义扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses和从Spider出去的Requests）。

Scrapy的运作流程

代码写好，程序开始运行…

引擎：Spider，你要处理哪一个网站？
Spider：老大要我处理xxxx.con。
引擎：你把第一个需要处理的URL给我吧。
Spider：给你，第一个URL是xxxx.com。
引擎：调度器，我这有一个Request请求你帮我排序入队一下。
调度器：好的，正在处理你等一下。
引擎：调度器，把你处理好的Requests请求给我。
调度器：给你，这是我处理好的Request。
引擎：下载器，你按照老大的下载中间件的设置帮我下载一下这个Request请求。
下载器：好的，给你，这是我下载好的东西。（若失败：sorry，这个Request下载失败了，然后引擎告诉调度器，这个Request下载失败了，你记录一下，我们待会儿再下载）。
引擎：Spider，这是下载好的东西，并且已经按照老大的下载中间件处理过了，你自己处理一下（注意：这儿Response默认是交给parse()这个函数处理的）。
Spider：（处理完数据之后对于需要跟进的URL）引擎，我这儿有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。
引擎：管道，我这儿有个Item你帮我处理一下。调取器，这是需要跟进的URL你帮我处理下，然后从第四步开始循环，知道获取完老大需要的全部信息。
管道&调度器：好的！

注意：只有当调度器中不存在任何Request了，整个程序才会停止（也就是说，对于下载失败的URL，Scrapy也会重新下载）。

Scrapy爬虫制作步骤

Scrapy安装

在OS X系统中，若你已安装pip，则只需输入终端命令

pip install Scrapy

python模块 / Python爬虫 · 2018年7月11日