我想保护我的网站免受网站复印机的侵害。我看过Ajax Toolkit NoBot,但不幸的是它不能满足我的要求。
以下是我的要求。
只有0.5%的页面具有回发功能,其余页面看起来像静态页面。因此检测应该在最初的请求而不是在回发时进行。
同时我要允许搜索引擎搜寻器。检测搜索机器人的最佳方法是什么?用户代理是不正确的方式?
也可以通过在内容中间填充提取的单词(我的网站网址等)来混淆页面内容,而这些单词将不会显示在我的网站上。但是,使用JQuery(客户端)/ HTMLDocument(服务器端)编码不应轻易删除这些填充的单词。
任何抽象的想法也欢迎。
如果您的答案为否,请不要回答。如果有任何可能的方法,请建议我。
你不能。当允许来源查看您的数据并允许Google Bot时,不可能仅阻止搜寻器,任何人都可以像他们一样来做。
但是,您可以阻止尝试窃取数据的人员,例如:
从请求的IP地址中创建一个字节数组,然后获取此数组(看起来像1000101011100
或类似的东西),并遍历文本中的所有空格。如果IP地址数组包含0
,则将空格替换为两个空格。
当您找到一个从您的网站复制了文本的网站时,请检查出源,并通过空格模式可以提取搜寻器IP并从您的Web服务器中阻止该IP。