有没有办法阻止谷歌索引网站?
的robots.txt
User-agent: * Disallow: /
这将阻止所有搜索机器人编制索引.
有关详细信息,请参阅:http://www.google.com/support/webmasters/bin/answer.py?hl = zh-CN& answer = 40360
我必须在这里添加我的答案,因为已接受的答案并没有真正触及问题.另请注意,阻止Google抓取并不意味着您可以将内容保密.
我的回答基于以下几个来源:https ://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling- -indexing ---排名
robots.txt
文件控制抓取,但不编制索引!这两个是完全不同的动作,分开执行.某些页面可能已被抓取但未编入索引,有些页面甚至可能已编入索引但从未被抓取过.其他网站上可能存在指向未抓取网页的链接,这会让Google索引器跟踪它,并尝试编制索引.
问题是关于正在收集有关页面数据的索引,因此可以通过搜索结果获得.可以阻止添加元标记:
或者向响应中添加HTTP标头:
X-Robots-Tag: noindex
如果问题是关于爬行,那么当然你可以创建robots.txt
文件并放下以下行:
User-agent: * Disallow: /
抓取是为收集有关某个特定网站结构的信息而执行的操作.例如,您已通过Google网站站长工具添加了该网站.Crawler会将其记录下来,并访问您的网站,搜索robots.txt
.如果它没有找到任何内容,那么它将假设它可以抓取任何内容(拥有sitemap.xml
文件也非常重要,以帮助进行此操作,并指定优先级并定义更改频率).如果找到该文件,它将遵循规则.成功抓取后,它会在某些时候为抓取的网页运行索引,但是你无法判断...
重要提示:这意味着您的网页仍然可以在Google搜索结果中显示,无论如何robots.txt
.
我希望至少有些用户会读到这个答案,并明确说明,因为了解实际情况至关重要.