我是新来的Hadoop
,不知道有多少种类InputFormat
是在有Hadoop
诸如TextInputFormat
?有没有InputFormat
我可以用来通过http请求读取文件到远程数据服务器?
谢谢 :)
有许多classes
实现InputFormat
CombineFileInputFormat, CombineSequenceFileInputFormat, CombineTextInputFormat, CompositeInputFormat, DBInputFormat, FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat, MultiFileInputFormat, NLineInputFormat, Parser.Node, SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat, SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat
看看这篇关于何时使用哪种类型的文章Inputformat
.
其中,最常用的formats
是:
FileInputFormat
:所有基于文件的InputFormats的基类
KeyValueTextInputFormat
:纯文本文件的InputFormat.文件分为几行.换行或回车用于发出行尾信号.每行由分隔符字节分为键和值部分.如果不存在这样的字节,则键将是整行,值将为空.
TextInputFormat
:纯文本文件的InputFormat.文件分为几行.换行或回车用于发出行尾信号.键是文件中的位置,值是文本行.
NLineInputFormat
:NLineInputFormat将N行输入拆分为一个拆分.在许多"愉快"并行应用程序中,每个进程/映射器处理相同的输入文件,但计算由不同的参数控制.
SequenceFileInputFormat
:SequenceFiles的InputFormat.
关于第二个查询,servers
首先从远程获取文件,并InputFileFormat
根据文件中的内容使用适当的.Hadoop
最适合数据本地化.