python爬虫-34-scrapy框架入门，scrapy架构模块功能认识-CFANZ编程社区

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

1、scrapy初始

我们知道，写一个爬虫是比较费劲的，比如说发起请求、数据解析、反反爬虫机制、异步请求等。如果我们每次都手动去操作，就很麻烦。scrapy这个框架已经把一些基础的内容封装好了，我们可以直接来使用，非常方便。

我们通过下面两个图，来简单有个认识；

python爬虫-34-scrapy框架入门，scrapy架构模块功能认识_linux系统

python爬虫-34-scrapy框架入门，scrapy架构模块功能认识_linux系统_02

可以个上图看到，scrapy也是有很多组件组成的，那么我们分别看下每个组件的作用是什么吧；

Scrapy Engine（引擎）：Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。
Spider（爬虫）：发送需要爬取的链接给引擎，最后引擎把其他模块请求回来的数据再发送给爬虫，爬虫就去解析想要的数据。这个部分是我们开发者自己写的，因为要爬取哪些链接，页面中的哪些数据是我们需要的，都是由程序员自己决定。
Scheduler（调度器）：负责接收引擎发送过来的请求，并按照一定的方式进行排列和整理，负责调度请求的顺序等。
Downloader（下载器）：负责接收引擎传过来的下载请求，然后去网络上下载对应的数据再交还给引擎。
Item Pipeline（管道）：负责将Spider（爬虫）传递过来的数据进行保存。具体保存在哪里，应该看开发者自己的需求。
Downloader Middlewares（下载中间件）：可以扩展下载器和引擎之间通信功能的中间件。
Spider Middlewares（Spider中间件）：可以扩展引擎和爬虫之间通信功能的中间件。