16赞

搜索引擎如何抓取抓取论坛？

作者：赛亚兔备_393 | 2023-09-03 10:34

如何解决《搜索引擎如何抓取抓取论坛？》经验，为你挑选了1个好方法。

如果我有一个包含大量线程的论坛网站,搜索引擎机器人每次都会抓取整个网站吗？假设我的网站中有超过1,000,000个线程,每次机器人抓取我的网站时是否会被抓取？或者它是如何工作的？我希望我的网站被编入索引,但我不希望机器人杀死我的网站!换句话说,我不希望机器人每次抓取我的网站时一次又一次地爬行旧线程.

那么,以前爬过的页面怎么样？机器人每次抓取我的网站以确保他们仍然在网站上时是否会请求他们？我问这个是因为我只链接到最新的线程,即有一个页面包含所有最新线程的列表,但我没有链接到较旧的线程,它们必须由URL明确请求,例如http ://example.com/showthread.aspx?threadid=7,这是否可以阻止机器人关闭我的网站并消耗我所有的带宽？

PS该网站仍在开发中,但我想知道为了设计网站,以便搜索引擎机器人不会降低它.

1> chakrit..：

复杂的东西.

根据我的经验,它更多地取决于您使用什么URL方案将页面链接在一起,这将确定爬虫是否将抓取哪些页面.

大多数引擎都抓取整个网站,如果它都是正确的超链接与爬网友好的URL,例如使用URL重写而不是topicID = 123查询字符串,并且所有页面都可以从主页面轻松链接几次.

另一种情况是分页,如果你有分页,有时机器人只抓取第一页,当它发现下一页链接不断点击同一个文件时停止,例如整个网站的一个index.php.

您不希望机器人意外地点击执行某些操作的某个网页,例如链接到"delete.php？topicID = 123"的"删除主题"链接,因此大多数抓取工具也会检查这些情况.

SEOmoz的工具页面还提供了大量有关一些爬虫工作方式的信息和见解,以及它将提取和咀嚼的信息等.您可以使用这些来确定论坛深处的页面,例如一年之久的帖子可能会获得是否爬行

一些抓取工具可让您自定义抓取行为......例如Google Sitemaps.你可以告诉他们做 - 抓取并且不抓取哪些页面以及订单等等.我记得有这样的服务可以从MSN和Yahoo获得,但是我从未尝试过.

您可以通过在网站根目录中提供robots.txt文件来限制爬网僵尸程序,以免它压倒您的网站.

基本上,如果您设计论坛以使URL看起来不会对抓取工具产生敌意,那么它会快乐地抓取整个网站.

推荐阅读

程序员
泛洪的最合适的HTTP状态代码是什么？

如何解决《泛洪的最合适的HTTP状态代码是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用数组计算每个数字的出现次数

如何解决《使用数组计算每个数字的出现次数》经验，为你挑选了0个好方法。 ... [详细]
程序员
选择一个RadioButton值并向后滚动以删除RecyclerView中的选定值

如何解决《选择一个RadioButton值并向后滚动以删除RecyclerView中的选定值》经验，为你挑选了0个好方法。 ... [详细]
程序员
从包的__init__.py中屏蔽python子模块

如何解决《从包的__init__.py中屏蔽python子模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用反射填充自定义类属性

如何解决《使用反射填充自定义类属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找列表中邻居的最有效方法

如何解决《查找列表中邻居的最有效方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法保持jQuery下拉列表滑落

如何解决《无法保持jQuery下拉列表滑落》经验，为你挑选了0个好方法。 ... [详细]
程序员
证明父母留下的div

如何解决《证明父母留下的div》经验，为你挑选了0个好方法。 ... [详细]
程序员
WPF PRISM 6 DelegateComand ObservesCanExecute

如何解决《WPFPRISM6DelegateComandObservesCanExecute》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用C++包装库的C#性能

如何解决《使用C++包装库的C#性能》经验，为你挑选了1个好方法。 ... [详细]
程序员
在R中按计数合并数据帧

如何解决《在R中按计数合并数据帧》经验，为你挑选了1个好方法。 ... [详细]
程序员
__uuidof（someVar）是做什么的？

如何解决《__uuidof（someVar）是做什么的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用MATLAB将信号发送到IP地址的端口？

如何解决《如何使用MATLAB将信号发送到IP地址的端口？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从新行设置数组的每个元素

如何解决《如何从新行设置数组的每个元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在代码优先迁移中强制删除并重新创建选定的表？

如何解决《如何在代码优先迁移中强制删除并重新创建选定的表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试执行迁移时模型的未处理挂起操作

如何解决《尝试执行迁移时模型的未处理挂起操作》经验，为你挑选了0个好方法。 ... [详细]
程序员
Xcode命令行测试执行问题

如何解决《Xcode命令行测试执行问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
将字符串拆分为数组并修剪每个值的有效方法 - Swift

如何解决《将字符串拆分为数组并修剪每个值的有效方法-Swift》经验，为你挑选了1个好方法。 ... [详细]
程序员
django - 在查询集上切片/过滤后过滤,其中结果已被限制

如何解决《django-在查询集上切片/过滤后过滤,其中结果已被限制》经验，为你挑选了2个好方法。 ... [详细]
程序员
Laravel 5:Apache php http认证

如何解决《Laravel5:Apachephphttp认证》经验，为你挑选了0个好方法。 ... [详细]

赛亚兔备_393

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章