当前位置:  开发笔记 > 编程语言 > 正文

如何配置robots.txt以允许一切?

如何解决《如何配置robots.txt以允许一切?》经验,为你挑选了4个好方法。

robots.txt在Google网站站长工具中显示以下值:

User-agent: *
Allow: /

这是什么意思?我对此知之甚少,所以寻求你的帮助.我想允许所有机器人抓取我的网站,这是正确的配置吗?



1> Jim..:

该文件将允许所有抓取工具访问

User-agent: *
Allow: /

这基本上允许所有用户代理(*)到站点的所有部分(/).


正确,除非你需要否定允许部分.没有"允许"所以这样做:"用户代理:*不允许:"就像他们在这里显示:http://www.robotstxt.org/robotstxt.html

2> unor..:

如果您想允许每个机器人抓取所有内容,这是在robots.txt中指定它的最佳方式:

User-agent: *
Disallow:

请注意,该Disallow字段具有空值,这意味着根据规范:

任何空值表示可以检索所有URL.


你的方式(Allow: /而不是Disallow:)也有效,但Allow不是原始robots.txt规范的一部分,所以它并不是所有机器人都支持(许多流行的机器人支持它,但是像Googlebot一样).也就是说,无法识别的字段必须被忽略,对于那些无法识别的机器人,Allow在这种情况下结果将是相同的:如果禁止任何内容被抓取(with Disallow),则允许对所有内容进行爬网.
但是,正式(根据原始规范)它是无效记录,因为至少Disallow需要一个字段:

记录中至少需要有一个Disallow字段.



3> Raja Anbazha..:

我知道这是一个相当古老的问题,并且有一些非常好的答案.但是,为了完整起见,这是我的两分钱.

根据官方文档,有四种方法,您可以允许机器人完全访问您的站点.

清洁:

如@unor所述,指定带有disallow段的全局匹配器.所以你/robots.txt看起来像这样.

User-agent: *
Disallow:

黑客:

创建一个/robots.txt没有内容的文件.哪个默认允许所有类型的所有类型Bots.

我不在乎的方式:

不要完全创造/robots.txt.哪个应该产生与上述两个完全相同的结果.

丑陋的:

从元标记的漫游器文档中,您可以在网站上的所有页面上使用以下元标记,以便Bots知道这些页面不应被编入索引.


为了将此功能应用于整个网站,您必须为所有网页添加此元标记.此标记应严格放在HEAD页面标记下.更多关于此元标记的信息.



4> Jordi..:

这意味着您允许每个(*)用户代理/爬网程序访问/您站点的根().你还好.


根据http://www.robotstxt.org/robotstxt.html,没有"允许"字段,所以我会小心使用它.维基百科提到"一些主要的抓取工具支持允许指令,它可以抵消以下的Disallow指令.":http://en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
推荐阅读
ERIK又
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有