
上QQ阅读APP看书,第一时间看更新
2.8.2 robots写作语法
首先,我们来看一个robots.txt范例:
# robots.txt file from https://www.liehe.com # All robots will spider the domain User-agent: * Disallow:
以上文本表达的意思是允许所有的蜘蛛访问www.liehe.com网站下的所有文件。具体语法分析如下:
#后面的文字为说明信息;User-agent后面的内容为蜘蛛的名称,如果是*,则泛指所有的蜘蛛;Disallow后面的内容是不允许访问的文件目录,如目录为空则不起任何禁止作用。
下面列举一些robots.txt的具体用法。
■ 允许所有的robot访问,格式如下:
User-agent: * Disallow:
或者也可以建一个空robots.txt文件。
■ 禁止所有搜索引擎访问网站的任何部分,格式如下:
User-agent: * Disallow: /
■ 禁止所有搜索引擎访问网站的某几个部分,如下例中禁止访问01、02、03目录:
User-agent: * Disallow: /01/ Disallow: /02/ Disallow: /03/
■ 禁止某个搜索引擎的访问,如下例中的BadBot:
User-agent: BadBot Disallow: /
■ 只允许某个搜索引擎的访问,如下例中的Crawler:
User-agent: Crawler Disallow: User-agent: * Disallow: /
另外,有必要进行拓展说明时,可对robots meta做一些介绍:
robots meta标签主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,robots meta标签也放在页面的<head></head>中,专门用来告诉搜索引擎机器人如何抓取该页的内容。