当前位置:  开发笔记 > 编程语言 > 正文

自动登录Google Web Crawler

如何解决《自动登录GoogleWebCrawler》经验,为你挑选了1个好方法。

我想自动检测Google和其他Crawlers并将它们登录到我的ASP.NET网站.有没有人找到一个可靠的方法来做到这一点?登录部分很简单,但要可靠地检测它们才是真正的问题.

问候.



1> Grant Wagner..:

这似乎是一个非常糟糕的主意,原因有几个,其中最重要的是Google会缓存您网页的副本,这样即使我不对您的网站进行身份验证,我也能看到网页的内容和从您网站的受保护部分后面提供的其他文件.

就检测网络爬虫而言,我不相信任何用户代理.您可以编译爬虫来自的IP地址列表,但只要Google添加了另一个IP地址,您就会拒绝该爬虫访问.

如果您的网站繁忙,请在每次请求时执行反向DNS查询,以确保访问者的域名与验证Googlebot的googlebot.com建议相同,这可能是一个重大的性能影响.

推荐阅读
李桂平2402851397
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有