我最近一直在思考有关屏幕抓取的问题,以及它可以完成的任务.所以我提出以下问题.
您作为网站开发人员是否会公开简单的API以防止用户屏幕抓取,例如JSON结果?
然后,这些结果可以实现缓存,并且它们的流量要小于可能下载的大量标记.
我不是在考虑预防,而是在阻止刮擦.
刮刮带宽样本
((用户*(%/ 100))*((freq*60)*24))*文件大小
用户:20万
使用实用程序的用户百分比:5
filesize:1kb
频率:1分钟
式:
((users*(%/ 100))*((freq*60)*24))*filesize
10,000*1440*1
14400000kb或13.73291015625gb
假设您的JSON结果是200字节,现在是(10,000*1440*0.2)或2.74658203125gb一天.
这是每天约11GB流量的变化.
我的Stack Overflow配置文件为96k以供参考.
这个问题的原因促使用户档案要求获得JSON结果:http:
//stackoverflow.uservoice.com/pages/general/suggestions/101342-add-json-for-user-information
我想知道其他开发人员是否会公开这种类型的API,以及是否值得花时间提供这些API以减少带宽.
提供API绝对应该减少针对您的网站进行的屏幕抓取量.使用优秀的REST API比屏幕抓取更容易,更安全.屏幕可以更改,恕不另行通知,这使得屏幕抓取代码更难维护.作为开发人员,如果我需要来自网站的信息,如果通过API提供相同的信息,我绝不会抓取该网站.