我有我的博客(如果你愿意,可以从我的个人资料中看到它),它是新鲜的,以及谷歌机器人解析结果.
结果让我感到震惊.显然,我网站上最常见的2个单词是"rss"和"feed",因为我使用文本链接,如"评论RSS","发布Feed"等.这两个单词将出现在每个帖子中,而其他单词会更罕见.
有没有办法让这些链接从Google的解析中消失?我不希望技术链接被编入索引.我只希望内容,标题,描述被编入索引.我正在寻找除了用图像替换这个文本以外的东西.
从2007年开始,我在Google上发现了一些旧的讨论(我认为在3年内很多事情都可能发生变化,希望这也是如此)
这个问题不是关于robots.txt以及如何让Google忽略网页.它是关于让它忽略页面的一小部分,或者以一种人类可以看到并且机器人看不见的方式转换部件.
有一种简单的方法可以告诉谷歌不要索引文档的部分内容,即使用googleon
和googleoff
:
This is normal (X)HTML content that will be indexed by Google.
This (X)HTML content will NOT be indexed by Google.
在此示例中,Google不会将第二段编入索引.注意" index
"参数,可以设置为以下任何一项:
index
- " googleoff: index
"所包围的内容不会被Google编入索引
anchor
- " googleoff: anchor
"区域内任何链接的锚文本都不会与目标页面关联
snippet
- " googleoff: snippet
" 包围的内容不会用于为搜索结果创建摘要
all
- 被" googleoff: all
" 包围的内容全部用
资源
我在美国数以千计的学校名称排名前三的谷歌网站上工作,我们做了很多工作来保护我们的搜索引擎优化.你可以做三件事(这可能是浪费时间,继续阅读):
将您想要淡化的内容移动到HTML的底部并使用CSS和/或将其放在您希望读者看到的位置.这不会将其隐藏在抓取工具中,但是它们会降低它的价值.
用图像替换这些链接(你说你不想这样做,但不解释为什么不这样做)
为抓取工具提供不同的页面,剥离这些链接.只要内容与浏览器看到的基本相同,就没有什么黑帽子了.如果您提供的页面与用户看到的页面明显不同,搜索引擎会告诉您,但如果您从页面抓取工具索引的版本中删除RSS链接,则不会有问题.
也就是说,爬虫是聪明的,你不是唯一一个充满永久链接和rss链接的网站.他们关心上下文,并在标题和正文中查找术语和短语.他们知道如何确定您的博客是关于技术而不是RSS.我非常怀疑这些链接对你的SEO有任何负面影响.你实际上试图解决什么问题?
如果你想建立搜索引擎优化,找出你给读者提供的价值,并写下来.说出有趣的事情会引导他人链接到您的博客,抓取工具会理解您是人们重视的信息来源.更多地考虑读者看到和理解的内容,而不是您认为爬虫看到的内容.