这个问题旨在作为主要网站使用的数据库及其配置列表,对于任何想要将其网站扩展到Twitter,Facebook甚至谷歌的人来说都是一个很好的参考.
请将您的答案保持在最低限度,并确保引用任何使用的来源.
编辑:
此外,请加粗网站名称和数据库,以便于扫描.
Facebook.com
MySQL与MyRocks.用于存储用户信息和社交活动,如喜欢,评论和分享.
Hive(Hadoop的数据仓库,支持表和称为hiveQL的SQL变体).用于"简单的摘要作业,商业智能和机器学习以及许多其他应用程序"
Cassandra(多维,分布式键值存储).目前用于Facebook的私人消息.
目前在具有Hive数据存储的单个群集中运行610(很快将是1000个)Hadoop节点.Hive和Cassandra都是Facebook开源的.
Facebook统计数据:
超过2亿活跃用户
超过1亿用户每天至少登录一次Facebook
超过3000万用户每天至少更新一次状态
普通用户在网站上有120个朋友
资料来源:
http://www.dbms2.com/2009/05/11/facebook-hadoop-and-hive/
http://www.facebook.com/note.php?note_id=89508453919
http://www.facebook.com/press/info.php?statistics
http://hadoop.apache.org/hive/
http://wiki.apache.org/hadoop/Hive/Design
http://www.facebook.com/note.php?note_id=24413138919
https://code.facebook.com/posts/190251048047090/myrocks-a-space-and-write-optimized-mysql-database
堆栈溢出 - SQL Server.
杰夫阿特伍德写了一篇很好的博客文章
https://blog.stackoverflow.com/2008/09/what-was-stack-overflow-built-with/
LinkedIn.com
Oracle(关系数据库)
MySQL(关系数据库)
数据库在多个服务器上复制以实现高可用性.每个特定服务都使用自己的特定于域的数据库.
LinkedIn统计数据:
2200万会员
每月400多万独立访客
每天4000万页面浏览量
每天200万次搜索
资料来源:
http://hurvitz.org/blog/2008/06/linkedin-architecture/
Flickr使用MySQL.
YouTube使用MySQL,但他们正在转向Google的BigTable.
Myspace使用SQL Server.
维基百科使用MySQL.
Microsoft.com
SQL Server(毫不奇怪)
Microsoft.com统计信息:
每月2.5亿次独立访问量.
每天7000万页面浏览量.
15,000连接/秒.
保持平均35,000个并发连接到总共80个Web服务器.
资料来源:
http://technet.microsoft.com/en-us/mscomops/default.aspx
Yahoo.com
PostgreSQL(已修改) - 客户端可以连接到群集中的任何节点(或策略受限子集).查询从客户端流向它选择连接的服务器.该节点上的SQL编译器编译并优化该单个节点上的查询(无并行性).
Yahoo.com统计:
每天240亿次活动
2-petabyte,索赔最大的数据库(2008年3月)
资源:
http://perspectives.mvdirona.com/2008/05/23/PetascaleSQLDBAtYahoo.aspx
http://www.computerworld.com/s/article/9087918/Size_matters_Yahoo_claims_2_petabyte_database_is_world_s_biggest_busiest
Twitter.com
MySQL(关系数据库).
Cassandra(多维,分布式键值存储).Twitter只是"开始在Twitter上使用Cassandra"(见第二个消息来源).
在2008年5月,Twitter有一个MySQL实例用于写入多个MySQL从属实例进行读取.
Twitter统计数据:
用户总数:1百万以上
活跃用户总数:每周200,000
Twitter消息总数:300万/天
5%的Twitter用户占所有活动的75%
在2009年前五个月加入的所有用户中有72.5%
资料来源:
http://blog.twitter.com/2008/05/its-not-rocket-science-but-its-our-work.html
http://blog.evanweaver.com/articles/2009/07/06/up-and-running-with-cassandra/
http://www.sysomos.com/insidetwitter/
http://www.techcrunch.com/2008/04/29/end-of-speculation-the-real-twitter-usage-numbers/
Digg.com
MySQL(关系数据库)用于扩展读取
用于扩展写入的MemcacheDB(键值存储)
两个数据存储都分布在多个服务器上.
Digg统计:
30M用户
每月26M独立
每月20亿请求
每秒13,000个请求,每秒27,000个请求达到峰值.
资料来源:
http://www.krisjordan.com/2008/09/18/joe-stump-scaling-digg-and-other-web-applications/
http://highscalability.com/scaling-digg-and-other-web-applications
Google使用BigTable:http://research.google.com/archive/bigtable.html