有没有人试图使用GlusterFS或Ceph作为Hadoop的后端?我不是在谈论只是使用插件来缝制东西.性能是否优于HDFS本身?是否适合生产使用.
另外,合并对象存储,hadoop hdfs存储作为单个存储是一个非常好的主意吗?或者最好让它们分开.
我之前使用过GlusterFS,它有一些很好的功能,但最后我选择在Hadoop中使用HDFS用于分布式文件系统.
关于GlusterFS的好处是它不需要主客户端节点.集群中的每个节点都是相同的,因此GlusterFS中没有单点故障.我在GlusterFS中发现一件有趣的事情是,当你想存储一个文件时,它有glusterfs-client模块,http://www.jamescoyle.net/how-to/439-mount-a-glusterfs-volume对于glusterfs,你不需要与GlusterFS apis接口,你只需要将文件复制到glusterfs-client中的已安装卷中,并使工作变得如此简单.
但我发现GlusterFS很难集成到Hadoop生态系统,如Spark,Mapreduce等,其中HDFS受Hadoop生态系统中所有大多数组件的支持.我认为GlusterFS很适合构建一个独立于Hadoop的文件存储等集群系统.