如果我有一个包含大量线程的论坛网站,搜索引擎机器人每次都会抓取整个网站吗?假设我的网站中有超过1,000,000个线程,每次机器人抓取我的网站时是否会被抓取?或者它是如何工作的?我希望我的网站被编入索引,但我不希望机器人杀死我的网站!换句话说,我不希望机器人每次抓取我的网站时一次又一次地爬行旧线程.
那么,以前爬过的页面怎么样?机器人每次抓取我的网站以确保他们仍然在网站上时是否会请求他们?我问这个是因为我只链接到最新的线程,即有一个页面包含所有最新线程的列表,但我没有链接到较旧的线程,它们必须由URL明确请求,例如http ://example.com/showthread.aspx?threadid=7,这是否可以阻止机器人关闭我的网站并消耗我所有的带宽?
PS该网站仍在开发中,但我想知道为了设计网站,以便搜索引擎机器人不会降低它.
复杂的东西.
根据我的经验,它更多地取决于您使用什么URL方案将页面链接在一起,这将确定爬虫是否将抓取哪些页面.
大多数引擎都抓取整个网站,如果它都是正确的超链接与爬网友好的URL,例如使用URL重写而不是topicID = 123查询字符串,并且所有页面都可以从主页面轻松链接几次.
另一种情况是分页,如果你有分页,有时机器人只抓取第一页,当它发现下一页链接不断点击同一个文件时停止,例如整个网站的一个index.php.
您不希望机器人意外地点击执行某些操作的某个网页,例如链接到"delete.php?topicID = 123"的"删除主题"链接,因此大多数抓取工具也会检查这些情况.
SEOmoz的工具页面还提供了大量有关一些爬虫工作方式的信息和见解,以及它将提取和咀嚼的信息等.您可以使用这些来确定论坛深处的页面,例如一年之久的帖子可能会获得是否爬行
一些抓取工具可让您自定义抓取行为......例如Google Sitemaps.你可以告诉他们做 - 抓取并且不抓取哪些页面以及订单等等.我记得有这样的服务可以从MSN和Yahoo获得,但是我从未尝试过.
您可以通过在网站根目录中提供robots.txt文件来限制爬网僵尸程序,以免它压倒您的网站.
基本上,如果您设计论坛以使URL看起来不会对抓取工具产生敌意,那么它会快乐地抓取整个网站.