1

Python爬虫编程思想(16):Robots协议(不了解这个就是面向监狱编程了)

 3 years ago
source link: https://blog.csdn.net/nokiaguy/article/details/120035191
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

        Python爬虫编程思想(17):使用urllib3发送HTTP Get和HTTP POST请求

目录

1. Robots协议简介

 2. 分析Robots协议


        本问会介绍什么是Robots协议,以及如何用Robots协议规范爬虫的行为。

1. Robots协议简介

        Robots协议也称作爬虫协议、机器人协议,它的全名是网络爬虫排除标准(Robots Exclusing Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。该协议的内容通常放在一个名为robots.txt的文本文件中,该文件一般位于网站的根目录下。

        注意,robots.txt文件中的内容只是告诉爬虫应该抓取什么,不应该抓取什么࿰


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK