当前位置:  开发笔记 > 编程语言 > 正文

防止网站数据被抓取和翻录

如何解决《防止网站数据被抓取和翻录》经验,为你挑选了5个好方法。

我正在寻找建立一个内容网站,可能有数千个不同的条目,可通过索引和搜索访问.

我可以采取哪些措施来防止恶意抓取工具从我的网站上删除所有数据?我不太担心SEO,虽然我不想一起阻止合法的抓取工具.

例如,我想过随机改变用于显示我的数据的HTML结构的小部分,但我想这不会真正有效.



1> Unsliced..:

从理论上讲,人眼可见的任何场所都可能具有可撕裂性.如果您甚至试图访问,那么根据定义,这必须是这样的情况(如果不是机器可读的,那么说话浏览器如何能够提供您的内容).

你最好的办法是研究水印你的内容,这样至少如果它被撕掉你可以指向水印并声明所有权.



2> Oli..:

介于此之间:

我可以采取哪些措施来防止恶意抓取程序被盗用

还有这个:

我不想一起阻止合法的抓取工具.

你要求很多.事实是,如果您要尝试阻止恶意抓取工具,那么您最终也会阻止所有"好"抓取工具.

你必须记住,如果人们想要抓住你的内容,他们会比搜索引擎机器人更多的手动工作......所以你的优先事项是正确的.你有两个选择:

    让互联网的农民偷走你的内容.密切关注它(在谷歌搜索一些更独特的短语)并向ISP发送拆卸请求.除了时间之外,这种选择对你的影响几乎没有.

    使用AJAX和滚动加密从服务器请求所有内容.您需要保持方法更改,甚至是随机的,因此每个页面加载都带有不同的加密方案.但如果有人想破解它,即使这样也会被破解.你也会放弃搜索引擎的面貌,因此会受到真实用户流量的影响.



3> Loris..:

好的爬虫将遵循您在robots.txt中指定的规则,而恶意爬虫则不会。您可以为不良的机器人设置“陷阱”,如此处所述:http : //www.fleiner.com/bots/。
但是话又说回来,如果您将内容发布到互联网上,那么我认为对所有人来说都比较好,因为它可以尽可能轻松地找到(实际上,您是在此处发布而不是在某个la脚的论坛上,专家们可以交换意见)



4> Richard Harr..:

实际上,您无法阻止恶意爬虫 - 并且您为防止恶意爬虫而采取的任何措施都可能会损害您的合法用户(除了可能向robots.txt添加条目以允许检测)

因此,您需要做的是计划被盗的内容 - 这种情况很可能以某种形式发生 - 并了解您将如何处理未经授权的复制.

预防是不可能的 - 并且浪费你的时间来做到这一点.

确保网站上的内容不易被复制的唯一可靠方法是拔掉网线...

要检测它,请使用像http://www.copyscape.com/这样的东西.



5> HS...:

甚至不要尝试在网络上建立限制!

确实如此简单。

阻止剥夺的所有可能措施(除了非常严格的robots.txt之外)都会伤害您的用户。验证码比获得收益更痛苦。检查用户代理会关闭意外的浏览器。使用javascript的“聪明”技巧也是如此。

请保持网络开放。如果您不想从您的网站上获取任何东西,那么不要在网站上发布。水印可以帮助您主张所有权,但是只有在您想在造成损害之后提起诉讼时,水印才有用。

推荐阅读
mylvfamily
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有