有人知道以编程方式检测停放的网页吗?也就是说,那些你不小心输入的页面(或有时是有意的),它们由域名停放服务托管,只有广告.
我正在建立一个链接网络,并希望确保过期的网站不会被其他人抢走,然后成为停放的网页.
这是一个我认为可以捕获相当数量的测试.它充分利用了您实际上并不希望为您的托管域提供真实网站的事实.它寻找子域和路径的通配符.让我们说我们的系统中有这个URL
http://www.example.com/method-to-detect-parked.
首先,我会检查实际的URL并将其哈希,或者获取一份副本进行比较.
我的第二次检查是
http://random.example.com/random
如果它与原始链接匹配甚至成功,那么您可以很好地指示页面已停放.如果失败,我可以单独检查子域和路径.如果页面随机更改某些元素,您可能需要选择几个项目进行比较.例如,制作页面中包含的链接列表,并比较那些或者标题标签.
我要说的是,您必须检查相关网站的WHOIS记录和/或网页的实际内容,并制定一些关于什么构成"停放页面"的启发式方法.
以goooogle.com为例,查看他们的WHOIS记录显示他们归"隐私保护"所有,他们的DNS服务器是ns1/ns2.fastpark.net.如果你看一下网站的来源,他们就足以拥有一个名为"style_park.css"的CSS文件:)
总而言之,我认为你不会想出一个通用的方法来做到这一点.您可能最终会得到一些不断发展的规则库或黑名单