1

Python爬虫编程思想(144):爬虫框架Scrapy的基础知识

 2 years ago
source link: https://blog.csdn.net/nokiaguy/article/details/124677048
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

        Scrapy是一个非常优秀的爬虫框架,通过Scrapy框架,可以非常轻松地实现强大的爬虫系统,程序员只需要将精力放在抓取规则以及如何处理抓取的数据上,至于一些外围的工作,例如,抓取页面,保存数据、任务调度、分布式等,直接交给Scrapy就可以了。

1. Scrapy简介

Scrapy主要包括如下几个部分。

  • Scrapy Engine(Scrapy引擎):用来处理整个系统的数据流,触发各种事件。
  • Scheduler(调度器):从Url队列中取出一个Url。
  • Downloader(下载器):从Internet上下载Web资源。
  • Spiders(网络爬虫):接收下载器下载的原

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK