17赞

使用Hadoop处理大量小文件

作者：谢谢巷议 | 2023-06-22 15:51

如何解决《使用Hadoop处理大量小文件》经验，为你挑选了0个好方法。

我正在使用Hadoop示例程序WordCount来处理大量的小文件/网页(cca.2-3 kB).由于这远离hadoop文件的最佳文件大小,因此程序非常慢.我想这是因为设置和撕毁工作的成本远远高于工作本身.这些小文件也会导致文件名的命名空间耗尽.

我读到在这种情况下我应该使用HDFS归档(HAR),但我不知道如何修改此程序WordCount以从此档案中读取.程序可以继续工作而无需修改或需要进行一些修改吗？

即使我在档案中打包了很多文件,问题仍然存在,这是否会提高性能.我读到即使我打包多个文件,一个存档中的这些文件也不会由一个映射器处理,但很多,在我的情况下(我猜)不会提高性能.

如果这个问题太简单,请理解我是Hadoop的新手并且对它的经验很少.

推荐阅读

程序员
Vim/Sed:仅删除单个空行

如何解决《Vim/Sed:仅删除单个空行》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ACL"public-read"保存到s3时,带有AdministratorAccess的AWS Lambda会抛出"拒绝访问"

如何解决《使用ACL"public-read"保存到s3时,带有AdministratorAccess的AWSLambda会抛出"拒绝访问"》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Android上使用Dagger 2进行懒惰注射

如何解决《在Android上使用Dagger2进行懒惰注射》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用AJAX加载RSS提要:Google Feed API的替代方案？

如何解决《使用AJAX加载RSS提要:GoogleFeedAPI的替代方案？》经验，为你挑选了1个好方法。 ... [详细]
程序员
IE11 HTTPS AJAX XMLHttpRequest:网络错误0x2eff,由于错误00002eff无法完成操作

如何解决《IE11HTTPSAJAXXMLHttpRequest:网络错误0x2eff,由于错误00002eff无法完成操作》经验，为你挑选了2个好方法。 ... [详细]
程序员
可以通过"添加服务引用"添加RESTful WCF服务吗？

如何解决《可以通过"添加服务引用"添加RESTfulWCF服务吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
编译com.squareup.retrofit时出错:converter-simplexml:2.0.0-beta2

如何解决《编译com.squareup.retrofit时出错:converter-simplexml:2.0.0-beta2》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Babel在ES6(7？)中避免使用.bind

如何解决《使用Babel在ES6(7？)中避免使用.bind》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java中的简单递归出错

如何解决《Java中的简单递归出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Angularjs中的pdfMake从HTML生成PDF

如何解决《使用Angularjs中的pdfMake从HTML生成PDF》经验，为你挑选了2个好方法。 ... [详细]
程序员
python:试图理解"子进程"O/S调用

如何解决《python:试图理解"子进程"O/S调用》经验，为你挑选了1个好方法。 ... [详细]
程序员
FullCalendar在周时间线视图中隐藏时间

如何解决《FullCalendar在周时间线视图中隐藏时间》经验，为你挑选了1个好方法。 ... [详细]
程序员
超薄3黑色错误

如何解决《超薄3黑色错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
c#到vb.net转换 - Action(Of T,string)作为元组项

如何解决《c#到vb.net转换-Action(OfT,string)作为元组项》经验，为你挑选了1个好方法。 ... [详细]
程序员
将json格式的Chrome书签文件转换为html

如何解决《将json格式的Chrome书签文件转换为html》经验，为你挑选了0个好方法。 ... [详细]
程序员
TensorFlow random_shuffle_queue已关闭且元素不足

如何解决《TensorFlowrandom_shuffle_queue已关闭且元素不足》经验，为你挑选了2个好方法。 ... [详细]
程序员
从postgres日期提取周数

如何解决《从postgres日期提取周数》经验，为你挑选了1个好方法。 ... [详细]
程序员
嵌套列表中的min/max函数如何工作？

如何解决《嵌套列表中的min/max函数如何工作？》经验，为你挑选了2个好方法。 ... [详细]
程序员
NSNotification不会调用@selector方法

如何解决《NSNotification不会调用@selector方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
以编程方式在代码隐藏中添加Visual State Setter

如何解决《以编程方式在代码隐藏中添加VisualStateSetter》经验，为你挑选了1个好方法。 ... [详细]

谢谢巷议

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章