《Robots.txt 和谈尺度》引见
远期有许多站少征询,如何准确设置"robots.txt"文件。为理解决广阔站少伴侣们的疑问,我们对《Robots.txt 和谈尺度》停止了翻译,期望此篇译文可以协助各人对"robots.txt"文件有更深的理解。
Robots.txt 是寄存正在站面根目次下的一个杂文本文件。固然它的设置很简朴,可是做用却很壮大。它能够指定搜索系统蜘蛛只抓与指定的内容,大概是制止搜索系统蜘蛛抓与网站的部门或局部内容。
上面我们便去具体引见一下它的利用办法:
Robots.txt 文件该当放正在网站根目次下,而且该文件是能够经由过程互联网停止会见的。
比方:
假如您的网站地点是 yourdomain/
那么,该文件必需可以经由过程 yourdomain/robots.txt 翻开并看到内里的内容。
格局:
User-agent:
用于形貌搜索系统蜘蛛的名字,正在" Robots.txt "文件中,假如有多条User-agent记载阐明有多个搜索系统蜘蛛会遭到该和谈的限定,对该文件去道,最少要有一条User-agent记载。假如该项的值设为*,则该和谈对任何搜索系统蜘蛛均有用,正在" Robots.txt "文件中,"User-agent:*"那样的记载只能有一条。
Disallow:
用于形貌没有期望被会见到的一个URL,那个URL能够是一条完好的途径,也能够是部门的,任何故Disallow开首的URL均没有会被Robot会见到。
举例:
例一:"Disallow:/help"
是指/help.html 战/help/index.html皆没有许可搜索系统蜘蛛抓与。
例两:"Disallow:/help/"
是指许可搜索系统蜘蛛抓与/help.html,而不克不及抓与/help/index.html。
例三:Disallow记载为空
阐明该网站的一切页里皆许可被搜索系统抓与,正在"/robots.txt"文件中,最少要有一条Disallow记载。
假如"/robots.txt"是一个空文件,则关于一切的搜索系统蜘蛛,该网站皆是开放的能够被抓与的。
#:
Robots.txt 和谈中的正文符。
举例:
例一:经由过程"/robots.txt"制止一切搜索系统蜘蛛抓与"/bin/cgi/"目次,和 "/tmp/"目次战 /foo.html 文件,设置办法以下:
以下为援用的内容: User-agent: * Disallow: /bin/cgi/ Disallow: /tmp/ Disallow: /foo.html |
例两:经由过程"/robots.txt"只许可某个搜索系统抓与,而制止其他的搜索系统抓与。
如:只许可名为"slurp"的搜索系统蜘蛛抓与,而回绝其他的搜索系统蜘蛛抓与 "/cgi/" 目次下的内容,设置办法以下:
以下为援用的内容: User-agent: * User-agent: slurp |
例三:制止任何搜索系统抓与我的网站,设置办法以下:
以下为援用的内容: User-agent: * Disallow: / |
例四:只制止某个搜索系统抓与我的网站
如:只制止名为“slurp”的搜索系统蜘蛛抓与,设置办法以下:
以下为援用的内容: User-agent: slurp Disallow: / |
更多,请参考译文出处:robotstxt/wc/norobots.html
注:相干网站建立本领浏览请移步到建站教程频讲。
相关信息
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|