20赞

loading large files into hdfs using Flume (spool directory)

作者：手机用户2502851955 | 2023-06-15 17:09

如何解决《loadinglargefilesintohdfsusingFlume(spooldirectory)》经验，为你挑选了1个好方法。

We copied a 150 mb csv file into flume's spool directory, when it is getting loaded into hdfs, the file was splitting into smaller size files like 80 kb's. is there a way to load the file without getting split into smaller files using flume? because more metadata will be generated inside namenode about the smaller files, so we need to avoid it.

My flume-ng code looks like this

# Initialize agent's source, channel and sink
agent.sources = TwitterExampleDir
agent.channels = memoryChannel
agent.sinks = flumeHDFS

# Setting the source to spool directory where the file exists
agent.sources.TwitterExampleDir.type = spooldir
agent.sources.TwitterExampleDir.spoolDir = /usr/local/flume/live

# Setting the channel to memory
agent.channels.memoryChannel.type = memory
# Max number of events stored in the memory channel
agent.channels.memoryChannel.capacity = 10000
# agent.channels.memoryChannel.batchSize = 15000
agent.channels.memoryChannel.transactioncapacity = 1000000

# Setting the sink to HDFS
agent.sinks.flumeHDFS.type = hdfs
agent.sinks.flumeHDFS.hdfs.path = hdfs://info3s7:54310/spool5
agent.sinks.flumeHDFS.hdfs.fileType = DataStream

# Write format can be text or writable
agent.sinks.flumeHDFS.hdfs.writeFormat = Text

# use a single csv file at a time
agent.sinks.flumeHDFS.hdfs.maxOpenFiles = 1

# rollover file based on maximum size of 10 MB
agent.sinks.flumeHDFS.hdfs.rollCount=0
agent.sinks.flumeHDFS.hdfs.rollInterval=2000
agent.sinks.flumeHDFS.hdfs.rollSize = 0
agent.sinks.flumeHDFS.hdfs.batchSize =1000000

# never rollover based on the number of events
agent.sinks.flumeHDFS.hdfs.rollCount = 0

# rollover file based on max time of 1 min
#agent.sinks.flumeHDFS.hdfs.rollInterval = 0
# agent.sinks.flumeHDFS.hdfs.idleTimeout = 600

# Connect source and sink with channel
agent.sources.TwitterExampleDir.channels = memoryChannel
agent.sinks.flumeHDFS.channel = memoryChannel

小智.. 8

你想要的是这个:

# rollover file based on maximum size of 10 MB
agent.sinks.flumeHDFS.hdfs.rollCount = 0
agent.sinks.flumeHDFS.hdfs.rollInterval = 0
agent.sinks.flumeHDFS.hdfs.rollSize = 10000000
agent.sinks.flumeHDFS.hdfs.batchSize = 10000

从水槽文件

hdfs.rollSize: File size to trigger roll, in bytes (0: never roll based on file size)

在您的示例中,您使用的是2000的rollInterval,它将在2000秒后翻转文件,从而生成小文件.

另请注意,batchSize反映了文件刷新到HDFS之前的事件数,不一定是文件关闭和创建新文件之前的事件数.您需要将其设置为足够小的值,以便不会超时写入大文件,但又足够大以避免许多HDFS请求的开销.

1> 小智..：

你想要的是这个:

# rollover file based on maximum size of 10 MB
agent.sinks.flumeHDFS.hdfs.rollCount = 0
agent.sinks.flumeHDFS.hdfs.rollInterval = 0
agent.sinks.flumeHDFS.hdfs.rollSize = 10000000
agent.sinks.flumeHDFS.hdfs.batchSize = 10000

从水槽文件

hdfs.rollSize: File size to trigger roll, in bytes (0: never roll based on file size)

在您的示例中,您使用的是2000的rollInterval,它将在2000秒后翻转文件,从而生成小文件.

推荐阅读

程序员
Python:查找包含列表的两个词典之间的差异

如何解决《Python:查找包含列表的两个词典之间的差异》经验，为你挑选了2个好方法。 ... [详细]
程序员
C++返回整个null分隔的字符串

如何解决《C++返回整个null分隔的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel迁移禁用外键检查的好方法

如何解决《Laravel迁移禁用外键检查的好方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony2的.如何让表单忽略额外的字段？

如何解决《Symfony2的.如何让表单忽略额外的字段？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何构建vim插件,以便用户可以使用病原体安装它

如何解决《如何构建vim插件,以便用户可以使用病原体安装它》经验，为你挑选了1个好方法。 ... [详细]
程序员
你如何调用从另一个类继承的方法？

如何解决《你如何调用从另一个类继承的方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Backwards是否承认Monad实例？

如何解决《Backwards是否承认Monad实例？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么在map周围包装list()导致函数运行？

如何解决《为什么在map周围包装list()导致函数运行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Swift中使用Container View进行委派

如何解决《在Swift中使用ContainerView进行委派》经验，为你挑选了2个好方法。 ... [详细]
程序员
Hello-jni示例在Android Studio 2.0 Preview中不起作用

如何解决《Hello-jni示例在AndroidStudio2.0Preview中不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法加载X11字体

如何解决《无法加载X11字体》经验，为你挑选了0个好方法。 ... [详细]
程序员
检查TextBox是否为空的最佳方法

如何解决《检查TextBox是否为空的最佳方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
三星6S上的C#.NET 4.5.1 MVC 5.2.2中的MP3流媒体

如何解决《三星6S上的C#.NET4.5.1MVC5.2.2中的MP3流媒体》经验，为你挑选了0个好方法。 ... [详细]
程序员
Django设置未知参数:TEMPLATE_DEBUG

如何解决《Django设置未知参数:TEMPLATE_DEBUG》经验，为你挑选了1个好方法。 ... [详细]
程序员
循环显示具有特定名称的工作表

如何解决《循环显示具有特定名称的工作表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何更改对象的显示方式？

如何解决《如何更改对象的显示方式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
控制器的ngdoc文档

如何解决《控制器的ngdoc文档》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何配置spring boot应用程序以使用aspectj事务？

如何解决《如何配置springboot应用程序以使用aspectj事务？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在pycharm或eclipse + pydev中的C线程中不工作python断点

如何解决《在pycharm或eclipse+pydev中的C线程中不工作python断点》经验，为你挑选了1个好方法。 ... [详细]
程序员
可能的意外参考比较按预期工作

如何解决《可能的意外参考比较按预期工作》经验，为你挑选了0个好方法。 ... [详细]

手机用户2502851955

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章