当前位置:  开发笔记 > 编程语言 > 正文

有没有办法让机器人忽略某些文字?

如何解决《有没有办法让机器人忽略某些文字?》经验,为你挑选了2个好方法。

我有我的博客(如果你愿意,可以从我的个人资料中看到它),它是新鲜的,以及谷歌机器人解析结果.

结果让我感到震惊.显然,我网站上最常见的2个单词是"rss"和"feed",因为我使用文本链接,如"评论RSS","发布Feed"等.这两个单词将出现在每个帖子中,而其他单词会更罕见.

有没有办法让这些链接从Google的解析中消失?我不希望技术链接被编入索引.我只希望内容,标题,描述被编入索引.我正在寻找除了用图像替换这个文本以外的东西.

从2007年开始,我在Google上发现了一些旧的讨论(我认为在3年内很多事情都可能发生变化,希望这也是如此)

这个问题不是关于robots.txt以及如何让Google忽略网页.它是关于让它忽略页面的一小部分,或者以一种人类可以看到并且机器人看不见的方式转换部件.



1> Ormoz..:

有一种简单的方法可以告诉谷歌不要索引文档的部分内容,即使用googleongoogleoff:

This is normal (X)HTML content that will be indexed by Google.

This (X)HTML content will NOT be indexed by Google.

在此示例中,Google不会将第二段编入索引.注意" index"参数,可以设置为以下任何一项:

index- " googleoff: index"所包围的内容不会被Google编入索引

anchor- " googleoff: anchor"区域内任何链接的锚文本都不会与目标页面关联

snippet- " googleoff: snippet" 包围的内容不会用于为搜索结果创建摘要

all- 被" googleoff: all" 包围的内容全部用

资源


只有Google Search Appliance支持`googleon`,`googleoff`tags(当您托管自己的搜索结果时).因此,这不会避免Google bot抓取该文本.
这适用于GSA而非GoogleBot.来自wikibedia:http://en.wikipedia.org/wiki/Noindex Google的主要索引蜘蛛Googlebot并不知道会识别这些技术.

2> Christopher ..:

我在美国数以千计的学校名称排名前三的谷歌网站上工作,我们做了很多工作来保护我们的搜索引擎优化.你可以做三件事(这可能是浪费时间,继续阅读):

将您想要淡化的内容移动到HTML的底部并使用CSS和/或将其放在您希望读者看到的位置.这不会将其隐藏在抓取工具中,但是它们会降低它的价值.

用图像替换这些链接(你说你不想这样做,但不解释为什么不这样做)

为抓取工具提供不同的页面,剥离这些链接.只要内容与浏览器看到的基本相同,就没有什么黑帽子了.如果您提供的页面与用户看到的页面明显不同,搜索引擎会告诉您,但如果您从页面抓取工具索引的版本中删除RSS链接,则不会有问题.

也就是说,爬虫是聪明的,你不是唯一一个充满永久链接和rss链接的网站.他们关心上下文,并在标题和正文中查找术语和短语.他们知道如何确定您的博客是关于技术而不是RSS.我非常怀疑这些链接对你的SEO有任何负面影响.你实际上试图解决什么问题?

如果你想建立搜索引擎优化,找出你给读者提供的价值,并写下来.说出有趣的事情会引导他人链接到您的博客,抓取工具会理解您是人们重视的信息来源.更多地考虑读者看到和理解的内容,而不是您认为爬虫看到的内容.

推荐阅读
wurtjq
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有