很多年前对p2p就有很大的兴趣,不过都是停留在理论上,一直没有机会去真正的实践。最近把这个东西实现了一下,从刚开始入手到现在,我觉得有些东西可以分享一下。进入正题吧那就
再讲p2p之前,我想先讲一下我们是如何进行下载文件的。我列举一下几种文件下载的方式
1.使用http协议下载,使用的最多的可能就是通过浏览器进行文件的下载。
2.使用ftp下载,ftp有两种模式,一种是port(主动)模式,这种模式客户端会在本地开启一个端口N(>1023)建立ftp连接,然后发送给ftp服务器N+1监听端口用来数据传输,当有防火墙或者客户端被nat的情况下就无法下载。另外一种方式是被动模式(passive),这种模式ftp服务端除了21端口以外会开启一个另外大于1023的端口,也就是说客户端会主动发起ftp连接和数据传输连接,只要ftp服务器开放了这个端口那就不会有问题。
上面两种方式可以统称为cs架构,这种架构下面,资源都集中在服务端,当数据量大到一定程度的时候就会出现问题。为了解决这个问题,我们可能会想到分布式去中心化,于是p2p应运而生,p2p即 peer to peer,这是一种对等架构,每个节点既是客服端又是服务端。
当把资源都存储在每个节点上面的时候,我们可能会想,当我下载一个资源的时候 ,那我怎么知道这个文件在那些机器上面能下载呢?
早期的p2p架构中存在一个tracker的角色,这个tracker负责存储文件的元数据信息。那么现在文件会保存在每个peer上面,然后通过tracker获取文件信息。
几个概念:
1.nodeid 在dht网络中每个nodeid都是160bit
2.XOR 两个节点之间的距离使用异或来计算
3.routting table路由表
这里的话还是主要讲实现所以原理这部分的话 网上也有很多资料 大家可以参考看看
实现种子搜索分为两步,第一步是爬虫,用来爬取网上的种子信息,第二步是加入搜索。
需要具备以下知识:种子,bittorrent dht 协议,bencoded
提到p2p不得不提种子,就是那种.torrent结果的那种文件,大家可能都是用过bt种子下载过文件,下载文件使用的是bittorrent协议。那么如何收集网络上面的种子呢?
bt种子包含的主要字段:戳:https://segmentfault.com/a/1190000000681331
在dht中获取的种子叫trackerless torrent,没有announce这个属性,但是会有nodes属性来代替。官方建议不要router.bittorrent.com把这个添加到种子里面,也不要添加到路由表。
如果想要得到种子信息,那么必须要对DHT Protocol深入了解,bep_0005描述了DHT Protocol
具体可以戳这里 http://www.bittorrent.org/beps/bep_0005.html
如何实现一个路由表:
路由表覆盖了所有Node的id,从0到2的160次方。路由表可以由bucket组成,每个bucket覆盖了所有node的一部分。
刚开始一个路由表只有一个bucket,覆盖了所有的nodeid。每个bucket,只能hold最多K个nodes,当前这个K值是8。如果bucket已经满了,并且里面的node都是好的,而且自身的nodeid不在这个bucket里面,那么就讲原来的bucket分成两个新的bucket,分别覆盖0..2159和2159..2160。
当一个bucket已经满了的时候,新node很容易被丢弃,如果这里面的node掉线了,那么就会被replace。如果一个节点最近15分钟都没有ping过,那么就对这个节点发起ping,如果没有返回response,那么这个节点也会被replace。
每一个bucket应该有一个last changed属性,用来表明这个bucket的活跃度。这几种情况会更新这个字段:
1.bucket里面的node被ping了并且有response
2.一个node添加到了这个bucket里面
3.bucket里面的node被replace了
bucket在15分钟之内没有更新这个字段的话 ,那么就会随机选取一个在该bucket范围内的id,做find_node操作。
dht网络中通过KRPC Protocol来传递消息。
1.ping
ping查询主要用来心跳检查
2.find_node
查找一个节点,对方会从自己的路由表中查询最近的N个节点返回,一般是8个
3.get_peers
根据infohash查找拥有该infohash的peer,如果查到到返回peers,没有查找到返回nodes
4.announce_peer
告诉其他的peers,自己也拥有infohash。
注意以上四个都会刷新路由表
一开始路由表里面没有任何节点,所以需要从超级节点(例如dht.transmissionbt.com
等等)通过find_node请求来查找并添加节点,返回的节点在进行find_node。
我自己实现的路由表稍微和上面描述的不太一样。
dht网络中采用udp进行数据传输,所以我只用开启一个upd端口不断的发送find_node请求建立路由表,然后通过get_peers和announce_peer来获取种子的infohash。
当我们加入dht网络后,通过上面介绍的四个方法只能得到种子文件的infohash,所以我们还需要通过infohash来下载种子,具体可以参照bep_009http://www.bittorrent.org/beps/bep_0009.html
我们主要通过bep_009来获取种子的名字字段,获取了文件名字段就可以根据名字和infohash来建立索引提供搜索。(这里主要构建磁力链接,有了磁力链接就可以去迅雷,百度网盘等去下载资源啦)
大部分磁力链接格式:magnet:?xt=urn:btih:infohash
上面介绍的方式是通过获取infohash来构建磁力链接,再借助第三方软件下载,当然也可以自己通过BitTorrent Protocol来下载,有兴趣的可以自行研究。
好了,上面只是简单的介绍了一些实现的步骤,很多细节和具体实现的话没有提到,我自己的话,参考了一些github dht的项目,然后自己实现了一下具体地址如下:https://github.com/mistletoe9527/dht-spider
以上就是如何用java实现一个p2p种子搜索的功能的详细内容,更多请关注其它相关文章!