有人知道Google Analytics中的数据是如何组织的吗?很难从大量数据中选择它们非常快速地执行,数据库的结构是什么?
AFAIK Google Analytics(分析)源自Urchin.据说有可能因为现在Google Analytics是Google家族的一部分,所以它正在使用MapReduce/BigTable.我可以假设Google已经将Urchin DB的旧格式与新的BigTable/MapReduce集成在一起.
我发现这个链接谈论Urchin DB.可能目前仍有一些东西在使用.
http://www.advanced-web-metrics.com/blog/2007/10/16/what-is-urchin/
这说:
[snip] ...仍然使用专有数据库来存储报告数据,这使得即席查询更加有限,因为您必须使用Urchin开发的工具而不是更灵活的SQL工具.
http://www.urchinexperts.com/software/faq/#ques45
Urchin使用什么类型的数据库?
Urchin使用专有的平面文件数据库来存储报告数据.高性能数据库架构可有效处理非常高流量的站点.数据库架构的一些好处包括:
* Small database footprint approximately 5-10% of raw logfile size * Small number of database files required per profile (9 per month of historical reporting) * Support for parallel processing of load-balanced webserver logs for increased performance * Databases are standard files that are easy to back up and restore using native operating system utilitiesv
有关更多信息Urchin
http://www.google.com/support/urchin45/bin/answer.py?answer=28737
很久以前我曾经有一个跟踪器,他们在他们的网站上讨论数据规范化:http://www.2enetworx.com/dev/articles/statisticus5.asp
在那里,您可以找到有关如何减少数据库中数据的一些信息,也许这是研究的良好开端.