我有一个严肃的问题.忽略网站上robots.txt文件的存在是否合乎道德?这些是我想到的一些注意事项:
如果有人放了一个网站,他们就会期待一些访问.当然,网络抓取工具使用带宽而不点击可能支持该网站的广告,但网站所有者正在将他们的网站放在网络上,这对他们来说,他们永远不会被机器人访问是多么合理?
一些网站显然使用了robots.txt,以防止他们的网站被Google或其他可能抢占价格的实用程序抓取,因此可以让人们轻松进行价格比较.他们在网站上有私人搜索引擎,所以他们显然希望人们能够搜索网站; 显然他们只是不希望人们能够轻松地将他们的信息与其他供应商进行比较.
正如我所说,我不是要争论; 我想知道是否有人提出过一个案例,在道德上允许忽略robots.txt文件的存在?我不能想到一个允许忽略robots.txt的情况,主要是因为人们(或企业)正在付钱建立他们的网站,所以他们应该能够告诉谷歌/ Yahoos /其他SE的世界他们不想成为他们的指数.
为了讨论这个问题,我想创建一个价格比较网站,其中一个主要供应商有一个robots.txt,基本上可以防止任何人抓住他们的价格.我希望能够获得他们的信息,但正如我所说,我不能完全忽视网站所有者的意愿.
我在这里看到了一些非常尖锐的讨论,这就是为什么我想听听Stack Overflow之后的开发人员的意见.
顺便说一句,关于黑客新闻问题的这个主题有一些讨论,但他们似乎主要关注这个问题的法律方面.
参数:
robots.txt文件是隐含许可证,特别是因为您知道它.因此,继续刮擦他们的网站可被视为未经授权的访问(即,黑客攻击).很糟糕,但最近在其他法律案件中提出了这样的论点(与robots.txt没有直接关系,但与其他"被动控制"有关.)
抓取价格违反了没有版权法,包括DMCA,因为版权不包括事实信息,只有创意.
从道德上讲,你不应该抢价格,因为供应商应该有能力改变价格,而不必担心来自你网站的人被诱骗/转换.
您是否走上了高路,向他们解释了网站并说您希望将它们包含在供应商列表中?也许他们会喜欢这个想法,并且实际上以一种易于消费的方式公开数据,并且可以减少他们生产的资源.
没有关于robots.txt的直接法律,因为通常会遵循网络礼节.不要成为"坏人"之一.
有些人过滤机器人是因为他们使用URL链接执行"操作",例如将东西添加到购物车中,机器人会在他们的数据库中留下大量废弃的购物车.
有些人过滤机器人,因为他们有独家价格,他们不能根据与供应商的协议公开宣传.您可以通过在您的网站上公布这些价格来将它们置于不利位置.
在这种经济形势下,如果一家公司不想尽一切可能做广告宣传,那么你就不会把它们包括在内,这是他们自己的错.
另一个用途robots.txt
是帮助保护网络蜘蛛自己.网络蜘蛛相对容易陷入无限深的链接林中,而正确构建的robots.txt
文件会告诉蜘蛛"你不需要去这里".