当前位置:  开发笔记 > 编程语言 > 正文

禁止在robots.txt中使用某个网址

如何解决《禁止在robots.txt中使用某个网址》经验,为你挑选了1个好方法。

我们在一段时间内在网站上实施了评级系统,其中包含指向脚本的链接.然而,由于网站上绝大多数评级为3/5,评级甚至超过1-5,我们开始怀疑搜索引擎爬虫等正在通过.使用的网址如下所示:

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

当我们开始时,我们将以下内容添加到robots.txt中:

User-agent: *
Disallow: /rate

这是不正确的还是谷歌机器人和其他人只是忽略我们的robots.txt?



1> ThiefMaster..:

您应该使用POST进行更改操作,因为搜索引擎通常不提交表单.此外,这将阻止以递归方式下载您的网站的用户(例如,使用wget)提交大量投票.

根据您的网站,通过javascript处理投票也可能是一个解决方案.

关于你的robots.txt:它必须在根路径中 - 即http://www.thesite.com/robots.txt - 如果你的评级系统是/ blah/rate你需要使用Disallow: /blah/rate而不是Disallow: /rate

推荐阅读
家具销售_903
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有