我有一个使用Django构建的网站.使用settings.py文件,我发送自己从网站生成的错误消息,部分是为了让我可以看到我是否犯了任何错误.
我不时会得到相当奇怪的错误,而且他们似乎主要是在网站的同一区域(我写了一些小教程,试图解释我如何设置Django博客引擎).
我得到的错误看起来像是我可以在拼写错误中完成的事情.
例如,这两个错误非常接近.我从来没有在这些页面上使用'x'或'post'作为变量.
'/blog_engine/page/step-10-sub-templates/{{+x.get_absolute_url+}}/'
'/blog_engine/page/step-10-sub-templates/{{+post.get_absolute_url+}}/'
用户代理是:
'HTTP_USER_AGENT':'Mozilla/5.0(兼容; Purebot/1.1; + http://www.puritysearch.net/)',
我认为它是一个刮板机器人,但我无法弄清楚他们能够通过这种攻击获得什么.
冒着愚蠢的风险,我该怎么办?这是一次黑客攻击还是只是试图复制我的网站?
编辑:我会按照已经给出的建议,但我真的很好奇为什么有人会运行这样的脚本.他们只是想复制.它不会访问管理页面甚至任何表单.除了潜在的剽窃之外,试图挖掘和寻找内容似乎是无害的?
从您的USER_AGENT
信息看来,这是来自puresearch.net的网络蜘蛛.
我建议你在你的网站上放一个CAPTCHA代码.当一些东西试图在10秒内访问10个页面时(通常没有人会这样做或找出触发你的CAPTCHA的正确标准),将其编程为触发.
此外,维护robots.txt
大多数抓取工具所尊重的文件.提及你的规则robots.txt
.您可以说抓取工具可以阻止您网站的某些繁忙部分等.
如果问题仍然存在,您可能希望联系该特定站点的系统管理员并尝试弄清楚发生了什么.
这样您就不会完全阻止抓取工具(您的网站变得流行所需),同时确保您的用户在您的网站上获得快速体验.