我在一个中间的专用服务器上运行一个内容很多,但流量很小的网站.
有时,Googlebot会踩踏我们,导致Apache最大化其内存,并导致服务器崩溃.
我怎么能避免这个?
您可以使用Google的网站管理员工具设置网站的抓取方式.具体来看看此页面:更改Google的抓取速度
您还可以使用robots.txt文件限制google bot搜索的页面.有一个可用的设置crawl-delay
,但它似乎没有被谷歌尊重.
在谷歌网站管理员工具注册,验证您的网站,并限制谷歌机器人
提交站点地图
阅读google guildelines :( if-Modified-Since HTTP header)
使用robot.txt限制从bot到网站某些部分的访问
制作一个脚本,每个$ [时间段]更改robot.txt,以确保机器人永远不能同时抓取太多页面,同时确保它可以抓取整个内容的所有内容