在给定的时间,我的应用程序中有用户文件系统(Apache CMIS)。随着它变得越来越大,我怀疑是否要迁移到hadoop(HDFS),因为我们还需要对其进行一些统计。问题:当前文件系统提供文件的版本控制。当我阅读有关hadoop的内容-HDFS-和文件版本控制时,我发现大部分时间我必须自己编写这一(版本)层。是否已经有可用的东西来管理HDFS中的文件版本控制,或者我真的必须自己编写它(不想重新发明热水,但也找不到合适的解决方案)。
回答
有关详细信息,请参见下面对答案的评论
Hadoop(HDFS)不支持文件版本控制。将hadoop与(amazon)S3结合使用时,您可以获得此功能:Hadoop将使用S3作为文件系统(没有块,但恢复将由S3提供)。该解决方案附带了S3提供的文件版本控制。Hadoop仍将使用YARN进行分布式处理。