简单的说 Robot 协议是用于告诉网络爬虫(主要是搜索引擎爬虫)本域名下的网页中, 那些部分是不应该爬取的,具体来说就是在网站的域名根目录下添加一份robots.txt
文件, 并在文件中声明对应的规则. 由于 Url 对大小写敏感, 所以 robots.txt
文件名要求全部小写.
搜索引擎爬虫在爬取一个网站时, 首先检查是否存在 robots.txt
文件, 如果存在, 则在爬取该网站下其他网页时, 应遵循文件所定义的范围进行爬取.
需要注意的是 Robots 协议是一个共同遵循的"道德约定", 但是不具有法律效应, 同时也不保证所有搜索引擎都会遵守这个约定