根据Hadoop权威指南:
HDFS是一种文件系统,用于存储具有流式或顺序数据访问模式的非常大的文件
什么是流式或顺序数据访问?它将如何减少磁盘的查找时间?
这并不是Hadoop特有的.
顺序访问模式是指您按顺序读取数据(通常从开始到结束).考虑一本书的例子.阅读小说时,使用顺序顺序:从第1页开始,然后转到第2页,依此类推.另一种常见模式称为随机访问.这是当你从一个地方跳到另一个地方时,甚至可能在读取数据时向后跳.对于书籍示例,请考虑字典.你不像读小说那样读它.相反,你在某个地方的中间搜索你的单词.当你查找完这个单词时,你可能会去找另一个单词,这个单词位于你书本打开的地方数百页之外.搜索你应该从哪里开始阅读被称为"寻求".
当您按顺序访问时,您只需要寻找一次,然后阅读,直到您完成该数据.进行随机访问时,您需要在每次要切换到文件中的其他位置时进行搜索.这在硬盘驱动器上可能会受到相当大的性能影响,因为在磁盘驱动器上寻求成本非常高.