作为我工作的一部分,我们每年获得大约25TB的日志文件,目前它是通过基于NFS的文件系统保存的.一些存档如zipped/tar.gz,而其他存档为纯文本格式.
我正在寻找使用基于NFS的系统的替代方案.我查看了MongoDB,CouchDB.它们是面向文档的数据库这一事实似乎使它成为合适的选择.但是,日志文件内容需要更改为JSON才能存储到数据库中.我不愿意做的事.我需要按原样保留日志文件内容.
至于用法,我们打算放置一个小的REST API,允许人们获取文件列表,最新文件和获取文件的能力.
提出的解决方案/想法需要是应用程序级别的某种形式的分布式数据库或文件系统,其中可以存储日志文件并且可以通过添加更多机器来有效地水平扩展.
ANKUR