1.机器人协议是什么
Robots协议,也称为robots.txt(统一小写),是存储在网站根目录下的ASCII编码文本文件。它通常告诉网络搜索引擎的漫游器(也称为网络蜘蛛),该网站中的哪些内容不应该由搜索引擎的漫游器获取,哪些内容可以由漫游器获取。
2.如何编写机器人协议
有些系统中的URL是区分大小写的,所以robots.txt的文件名应该统一用小写。
用户代理:*
不允许:
allow:
“*”和“$”的含义
Baiduspider支持使用通配符\' * \'和\' $ \'来模糊匹配URL。
“$”与行结束符匹配。
*”匹配0个或更多任意字符。
对于一般企业来说,可以这样写,只要不允许不想被搜索引擎抓取的文件就可以了,比如我们的网站数据、图片等等。