不能完全无状态的大型网站如何在Web层实现极高的可扩展性?
有像eBay和亚马逊这样的网站,不能完全无国籍,因为他们有购物车或类似的东西.将购物车中的每个项目编码到URL中是不可行的,也不可能将每个项目编码到cookie中并在每个连接处发送它.所以亚马逊只是将session-id存储到正在发送的cookie中.所以我理解eBay和亚马逊的Web层的可扩展性应该比谷歌搜索引擎的可扩展性要困难得多,谷歌搜索引擎可以将所有内容编码到URL中.
另一方面,eBay和亚马逊都大规模扩展.有传言说eBay上有大约15000个J2EE应用服务器.
这些网站如何处理这两者:极端可扩展性和状态?由于站点是有状态的,因此进行简单的DNS平衡是不可行的.因此可以假设这些公司有一个基于硬件的负载均衡器,如BigIP,Netscaler或类似的东西,这是该站点的单个IP地址背后的唯一设备.此负载均衡器将解密SSL(如果已编码),检查cookie并根据该cookie的会话ID决定哪个应用程序服务器持有该客户的会话.
但这不可能工作,因为没有一个负载均衡器可以处理数千个应用服务器的负载?我想,即使这些硬件负载平衡器也不能扩展到这样的水平.
此外,负载平衡正在为用户透明地完成,即用户不会转发到不同的地址,但仍然全部共同留在www.amazon.com.
所以我的问题是:是否有一些特殊的技巧可以实现像Web层的透明分片(通常不是数据库层)?只要未检查cookie,就无法知道哪个应用程序服务器正在举行此会话.
编辑:我意识到只需要透明度,如果需要对网站进行拼接和添加书签.例如,如果该站点仅仅是一个Web应用程序,比如飞机或火车票预订系统,那么将用户重定向到不同URL后面的特定Web服务器集群(例如a17.ticketreservation.com)应该没有问题.在这种特定情况下,仅使用多个应用服务器集群是可行的,每个应用服务器集群都在他自己的负载均衡器之后.有趣的是,我没有找到使用这种概念的网站. 编辑:我发现这个概念讨论在highscalability.com,这里的讨论是指由擂主的文章命名"Web 2.0应用程序的客户端负载平衡".雷朱使用交叉脚本来透明地进行客户端负载均衡.
即使存在书签,xss等缺点,我也认为对于某些特殊情况,这几乎是一个非常好的主意,即几乎无内容的Web应用程序,不需要被蜘蛛网或书签(例如机票预订)系统或类似的东西).然后就不需要透明地进行负载均衡.
可以从主站点到服务器进行简单的重定向,例如从www.ticketreservation.com重定向到17.ticketreservation.com.从那里,用户停留在服务器a17.a17不是服务器,而是集群本身,通过它可以实现冗余.
初始重定向服务器本身可以是负载均衡器后面的集群.这样,可以实现真正高的可伸缩性,因为www后面的主要负载均衡器仅在每个会话开始时被击中一次.
当然,重定向到一个不同的URL看起来非常讨厌,但与单纯的Web应用程序(它不需要被震垮,深层链接或深书签反正),这应该是只对用户的光学问题?
重定向集群可以轮询应用程序集群的负载并相应地调整重定向,从而实现平衡而不仅仅是负载分配.