Python爬虫编程思想（158）：Scrapy中的下载器中间件

2 years ago

source link: https://blog.csdn.net/nokiaguy/article/details/126335151
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Python爬虫编程思想（158）：Scrapy中的下载器中间件

Scrapy允许使用中间件干预数据的抓取过程，以及完成其他数据处理工作。其中一类非常重要的中间件就是下载器中间件。下载器中间件可以对数据的下载和处理过程进行拦截。在Scrapy爬虫中，数据下载和处理分下面两步完成。

指定Web资源的Url，并向服务端发送请求。在这一步需要依赖于爬虫类的start_urls变量或start_requests方法。
当服务端相应Scrapy爬虫的请求后，就会返回响应数据，这时系统会将响应数据再交由Scrapy爬虫处理，也就是调用爬虫类的请求回调方法，如parse。

1. 核心方法

下载器中间件可以对这两步进行拦截。当爬虫向服务端发送请求之前，会通过下载器中间件类的process_request方法进行拦截，当爬虫处理服务端响应数据之前，会通过下载器中间件类的process_response方法进行拦截。

除了这两个方法外࿰

文章知识点与官方知识档案匹配，可进一步学习相关知识

Recommend

Python爬虫编程思想（158）：Scrapy中的下载器中间件

Python爬虫编程思想（158）：Scrapy中的下载器中间件

Recommend

无人驾驶试点也要守住安全底线

Vol. 74 如果不做程序员我们会做什么？

When CEOs say it’s your mistake!

Save 62% off a lifetime subscription to Enpass Password Manager

AI画画催生新职业：现在出售DALL·E 2提示词就能赚钱，平台抽成20%

赵建：复杂形势下如何做好宏观研究

综述：美国衰退加剧全球经济挑战

Hitting the Books: What goes on at a summer camp for YouTube Gaming kidfluencers

GitHub - Acyony/gopher-pattern: Do you know Golang and want to do yourself a han...

Open Channel: What's Your Favorite Anime Film?

About Joyk