当前位置:  开发笔记 > 编程语言 > 正文

阻止谷歌文档的网站刮痧

如何解决《阻止谷歌文档的网站刮痧》经验,为你挑选了1个好方法。

我运行一个网站,以图表/表格格式提供各种数据,供人们阅读.最近我注意到来自Google Docs的网站请求有所增加.看看IP和用户代理,它似乎来自Google服务器 - 这里的IP查找示例.

点击次数在每天2,500到10,000个请求的范围内.

我假设有人创建了一个或多个Google表格,用于从我的网站上抓取数据(可能使用IMPORTHTML功能或类似功能).我希望这不会发生(因为我不知道数据是否被正确归因).

是否有一种阻止Google支持/批准此流量的首选方法?

我宁愿不基于IP地址阻止,因为阻止谷歌服务器感觉不对,可能导致未来的问题或IP可能会改变.目前我正在阻止(返回403状态)基于包含GoogleDocs或的用户代理docs.google.com.

目前流量主要来自66.249.89.221和66.249.89.223,始终与用户代理有关 Mozilla/5.0 (compatible; GoogleDocs; apps-spreadsheets; http://docs.google.com)

作为第二个问题:有没有办法跟踪文档或其帐户所有者?我可以访问他们正在访问的URL,但由于请求似乎通过Google Docs服务器代理(HTTP日志中没有Referer,Cookies或其他此类数据),因此无法继续访问.

谢谢.



1> pbuck..:

阻止用户代理是一个很好的解决方案,因为似乎没有办法设置不同的用户代理并仍然使用INPUTHTML功能 - 并且因为你很乐意禁止从文档表中"全部"使用,这是完善.

额外的想法,但如果完全禁止似乎不愉快:

    速率限制:正如你所说,你认为它主要来自两个IP并且始终使用相同的用户代理,只会减慢你的响应速度.只要请求是连续的,您就可以提供数据,但是在通过时可能足以阻止抓取.延迟您的响应(对于可疑的刮刀)20或30秒.

    重定向到"您被屏蔽"屏幕,或屏幕显示"默认"数据(即可报废,但不包含当前数据).比基本403更好,因为它会告诉人类它不是用于刮擦,然后你可以指导他们购买访问权限(或者至少从你那里请求一把钥匙).

推荐阅读
女女的家_747
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有