我的hadoop作业在HDFS上生成大量文件,我想编写一个单独的线程,将这些文件从HDFS复制到S3.
任何人都可以指向任何处理它的Java API.
谢谢
"支持S3块文件系统已添加到Hadoop 0.11.0中的$ {HADOOP_HOME}/bin/hadoop distcp工具中(参见HADOOP-862).distcp工具设置MapReduce作业来运行副本.使用distcp,a许多成员的集群可以快速复制大量数据.映射任务的数量是通过计算源中文件的数量来计算的:即每个映射任务负责复制一个文件.源和目标可以指不同的文件系统类型.例如,source可能引用本地文件系统或以S3为目标的hdfs."
在这里查看运行批量复制进出S3 http://wiki.apache.org/hadoop/AmazonS3