我对像torrentz.com这样的搜索引擎背后的技术感到好奇.根据我的观察,它不会托管任何torrent文件,而是将您连接到其他服务器.
您搜索关键字,它会显示与您的搜索匹配的潜在标题列表.
然后你选择其中一个,它为你提供托管相应的torrent文件的潜在服务器的另一个列表.
我特别感兴趣的是收集和索引所有内容背后的策略:
他们如何收集然后汇总数据?
它是一个提交基础服务,其中每个服务器都提交其内容以进行索引吗?
它是一种爬行算法吗?如果是这样,你怎么开始爬网像piratebay.org?
他们是否可以访问这些其他服务器的数据库?
我对bittorrent协议的了解和理解不是很精细,但我在网上找到的文档更多地指向了构建跟踪服务所涉及的过程,这不是我感兴趣的.任何见解和推荐的阅读材料表示赞赏.
首先开始索引他们的RSS订阅源并从中收集数据.下一步将是门户网站(如Mininova,tpb等)页面的索引,但请注意这样做的事实,即你可以被禁止(基于ip),因为这会引发从服务器请求的大量数据(i不要以为他们对此感到高兴)
这说我怀疑他们可以访问其他服务器的数据库,而是它爬行+ rss.
您可以使用的另一件事是,当有人查询您在qyour数据库中没有的项目时,您在主bt门户网站上进行查询,将结果缓存到数据库中,然后显示结果.然后,如果另一个用户进行相同的查询(这是非常常见的情况),您可以向他显示缓存数据+来自rss的新数据.