我运行一个网站,以图表/表格格式提供各种数据,供人们阅读.最近我注意到来自Google Docs的网站请求有所增加.看看IP和用户代理,它似乎来自Google服务器 - 这里的IP查找示例.
点击次数在每天2,500到10,000个请求的范围内.
我假设有人创建了一个或多个Google表格,用于从我的网站上抓取数据(可能使用IMPORTHTML功能或类似功能).我希望这不会发生(因为我不知道数据是否被正确归因).
是否有一种阻止Google支持/批准此流量的首选方法?
我宁愿不基于IP地址阻止,因为阻止谷歌服务器感觉不对,可能导致未来的问题或IP可能会改变.目前我正在阻止(返回403状态)基于包含GoogleDocs
或的用户代理docs.google.com
.
目前流量主要来自66.249.89.221和66.249.89.223,始终与用户代理有关 Mozilla/5.0 (compatible; GoogleDocs; apps-spreadsheets; http://docs.google.com)
作为第二个问题:有没有办法跟踪文档或其帐户所有者?我可以访问他们正在访问的URL,但由于请求似乎通过Google Docs服务器代理(HTTP日志中没有Referer,Cookies或其他此类数据),因此无法继续访问.
谢谢.
阻止用户代理是一个很好的解决方案,因为似乎没有办法设置不同的用户代理并仍然使用INPUTHTML功能 - 并且因为你很乐意禁止从文档表中"全部"使用,这是完善.
额外的想法,但如果完全禁止似乎不愉快:
速率限制:正如你所说,你认为它主要来自两个IP并且始终使用相同的用户代理,只会减慢你的响应速度.只要请求是连续的,您就可以提供数据,但是在通过时可能足以阻止抓取.延迟您的响应(对于可疑的刮刀)20或30秒.
重定向到"您被屏蔽"屏幕,或屏幕显示"默认"数据(即可报废,但不包含当前数据).比基本403更好,因为它会告诉人类它不是用于刮擦,然后你可以指导他们购买访问权限(或者至少从你那里请求一把钥匙).