7

Python爬虫编程思想(158):Scrapy中的下载器中间件

 2 years ago
source link: https://blog.csdn.net/nokiaguy/article/details/126335151
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Python爬虫编程思想(158):Scrapy中的下载器中间件

        Scrapy允许使用中间件干预数据的抓取过程,以及完成其他数据处理工作。其中一类非常重要的中间件就是下载器中间件。下载器中间件可以对数据的下载和处理过程进行拦截。在Scrapy爬虫中,数据下载和处理分下面两步完成。

  1. 指定Web资源的Url,并向服务端发送请求。在这一步需要依赖于爬虫类的start_urls变量或start_requests方法。
  2. 当服务端相应Scrapy爬虫的请求后,就会返回响应数据,这时系统会将响应数据再交由Scrapy爬虫处理,也就是调用爬虫类的请求回调方法,如parse。

1. 核心方法

        下载器中间件可以对这两步进行拦截。当爬虫向服务端发送请求之前,会通过下载器中间件类的process_request方法进行拦截,当爬虫处理服务端响应数据之前,会通过下载器中间件类的process_response方法进行拦截。

        除了这两个方法外࿰

文章知识点与官方知识档案匹配,可进一步学习相关知识

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK