当前位置:  开发笔记 > 数据库 > 正文

实施大规模日志文件分析

如何解决《实施大规模日志文件分析》经验,为你挑选了2个好方法。

任何人都可以指出我的参考或提供高级概述,如Facebook,雅虎,谷歌等公司如何执行他们为运营,特别是网络分析做的大规模(例如多TB范围)日志分析?

特别关注网络分析,我对两个密切相关的方面感兴趣:查询性能和数据存储.

我知道一般的方法是使用map reduce在集群上分发每个查询(例如使用Hadoop).但是,最有效的存储格式是什么?这是日志数据,因此我们可以假设每个事件都有一个时间戳,而且通常数据是结构化的而不是稀疏的.大多数Web分析查询涉及分析两个任意时间戳之间的数据片段,并检索该数据中的聚合统计信息或异常.

像Big Table(或HBase)这样的面向列的数据库是一种有效的存储方式,更重要的是,它可以查询这些数据吗?您选择行的子集(基于时间戳)这一事实是否违背了此类存储的基本前提?将它存储为非结构化数据会更好吗,例如.反向指数?



1> 小智..:

不幸的是,没有一个尺寸适合所有答案.

我目前正在使用Cascading,Hadoop,S3和Aster Data通过AWS内部的分阶段管道来处理100个Gigs.

Aster Data用于查询和报告,因为它为Hadoop上的级联进程清理和解析的海量数据集提供了SQL接口.使用级联JDBC接口,加载Aster Data是一个非常简单的过程.

请记住,像HBase和Hypertable这样的工具是键/值存储,所以不要在没有MapReduce/Cascading应用程序帮助的情况下进行临时查询和连接以执行带外连接,这是一种非常有用的模式.

在完全披露中,我是Cascading项目的开发人员.

http://www.asterdata.com/

http://www.cascading.org/



2> caskey..:

Hadoop一书:O'Reilly的权威指南有一章讨论了两个真实公司如何使用hadoop.

http://my.safaribooksonline.com/9780596521974/ch14

推荐阅读
mylvfamily
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有