我们在一段时间内在网站上实施了评级系统,其中包含指向脚本的链接.然而,由于网站上绝大多数评级为3/5,评级甚至超过1-5,我们开始怀疑搜索引擎爬虫等正在通过.使用的网址如下所示:
http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3
当我们开始时,我们将以下内容添加到robots.txt中:
User-agent: * Disallow: /rate
这是不正确的还是谷歌机器人和其他人只是忽略我们的robots.txt?
您应该使用POST进行更改操作,因为搜索引擎通常不提交表单.此外,这将阻止以递归方式下载您的网站的用户(例如,使用wget)提交大量投票.
根据您的网站,通过javascript处理投票也可能是一个解决方案.
关于你的robots.txt:它必须在根路径中 - 即http://www.thesite.com/robots.txt - 如果你的评级系统是/ blah/rate你需要使用Disallow: /blah/rate
而不是Disallow: /rate