Apache Beam是否支持其输出的自定义文件名？

作者：郑小蒜9299_941611_G | 2023-07-11 13:38

如何解决《ApacheBeam是否支持其输出的自定义文件名？》经验，为你挑选了1个好方法。

在分布式处理环境中,通常使用"部分"文件名,例如"part-000",是否可以编写某种扩展名来重命名各个输出文件名(例如每个窗口文件名) Apache Beam？

为此,可能必须能够为窗口指定名称或根据窗口的内容推断文件名.我想知道这种方法是否可行.

至于解决方案应该是流式还是批量式,流式模式示例是优选的

1> abhijeet dhu..：

是的,正如jkff建议的那样,您可以使用TextIO.write.to(FilenamePolicy)来实现这一点.

示例如下:

如果要将输出写入特定的本地文件,可以使用:

lines.apply(TextIO.write()到( "/路径/到/ file.txt的"));

下面是使用前缀link来编写输出的简单方法.此示例适用于Google存储,而不是使用本地/ s3路径.

public class MinimalWordCountJava8 {

  public static void main(String[] args) {
    PipelineOptions options = PipelineOptionsFactory.create();
    // In order to run your pipeline, you need to make following runner specific changes:
    //
    // CHANGE 1/3: Select a Beam runner, such as BlockingDataflowRunner
    // or FlinkRunner.
    // CHANGE 2/3: Specify runner-required options.
    // For BlockingDataflowRunner, set project and temp location as follows:
    //   DataflowPipelineOptions dataflowOptions = options.as(DataflowPipelineOptions.class);
    //   dataflowOptions.setRunner(BlockingDataflowRunner.class);
    //   dataflowOptions.setProject("SET_YOUR_PROJECT_ID_HERE");
    //   dataflowOptions.setTempLocation("gs://SET_YOUR_BUCKET_NAME_HERE/AND_TEMP_DIRECTORY");
    // For FlinkRunner, set the runner as follows. See {@code FlinkPipelineOptions}
    // for more details.
    //   options.as(FlinkPipelineOptions.class)
    //      .setRunner(FlinkRunner.class);

    Pipeline p = Pipeline.create(options);

    p.apply(TextIO.read().from("gs://apache-beam-samples/shakespeare/*"))
     .apply(FlatMapElements
         .into(TypeDescriptors.strings())
         .via((String word) -> Arrays.asList(word.split("[^\\p{L}]+"))))
     .apply(Filter.by((String word) -> !word.isEmpty()))
     .apply(Count.perElement())
     .apply(MapElements
         .into(TypeDescriptors.strings())
         .via((KV wordCount) -> wordCount.getKey() + ": " + wordCount.getValue()))
     // CHANGE 3/3: The Google Cloud Storage path is required for outputting the results to.
     .apply(TextIO.write().to("gs://YOUR_OUTPUT_BUCKET/AND_OUTPUT_PREFIX"));

    p.run().waitUntilFinish();
  }
}

此示例代码将为您提供更多控制写入输出:

 /**
   * A {@link FilenamePolicy} produces a base file name for a write based on metadata about the data
   * being written. This always includes the shard number and the total number of shards. For
   * windowed writes, it also includes the window and pane index (a sequence number assigned to each
   * trigger firing).
   */
  protected static class PerWindowFiles extends FilenamePolicy {

    private final ResourceId prefix;

    public PerWindowFiles(ResourceId prefix) {
      this.prefix = prefix;
    }

    public String filenamePrefixForWindow(IntervalWindow window) {
      String filePrefix = prefix.isDirectory() ? "" : prefix.getFilename();
      return String.format(
          "%s-%s-%s", filePrefix, formatter.print(window.start()), formatter.print(window.end()));
    }

    @Override
    public ResourceId windowedFilename(int shardNumber,
                                       int numShards,
                                       BoundedWindow window,
                                       PaneInfo paneInfo,
                                       OutputFileHints outputFileHints) {
      IntervalWindow intervalWindow = (IntervalWindow) window;
      String filename =
          String.format(
              "%s-%s-of-%s%s",
              filenamePrefixForWindow(intervalWindow),
              shardNumber,
              numShards,
              outputFileHints.getSuggestedFilenameSuffix());
      return prefix.getCurrentDirectory().resolve(filename, StandardResolveOptions.RESOLVE_FILE);
    }

    @Override
    public ResourceId unwindowedFilename(
        int shardNumber, int numShards, OutputFileHints outputFileHints) {
      throw new UnsupportedOperationException("Unsupported.");
    }
  }

  @Override
  public PDone expand(PCollection teamAndScore) {
    if (windowed) {
      teamAndScore
          .apply("ConvertToRow", ParDo.of(new BuildRowFn()))
          .apply(new WriteToText.WriteOneFilePerWindow(filenamePrefix));
    } else {
      teamAndScore
          .apply("ConvertToRow", ParDo.of(new BuildRowFn()))
          .apply(TextIO.write().to(filenamePrefix));
    }
    return PDone.in(teamAndScore.getPipeline());
  }

推荐阅读

程序员
UrlClassLoader委托和继承层次结构

如何解决《UrlClassLoader委托和继承层次结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Boot类路径

如何解决《SpringBoot类路径》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何模仿谷歌地图的底层3阶段行为？

如何解决《如何模仿谷歌地图的底层3阶段行为？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在命令行上为jMeter增加内存

如何解决《在命令行上为jMeter增加内存》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过HTTP测试服务工作者的选项

如何解决《通过HTTP测试服务工作者的选项》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用Ionic连接到MongoDB远程服务器

如何解决《使用Ionic连接到MongoDB远程服务器》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我不能传递ULARGE_INTEGER的共享指针,而是传递ULARGE_INTEGER*没有问题？

如何解决《为什么我不能传递ULARGE_INTEGER的共享指针,而是传递ULARGE_INTEGER*没有问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有动态参数的Oracle Lag函数

如何解决《具有动态参数的OracleLag函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
Scala:在不创建对象的情况下获取默认值

如何解决《Scala:在不创建对象的情况下获取默认值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何拥有单独的身份验证源？(一个用于Oauth2,一个用于基于表单的登录)

如何解决《如何拥有单独的身份验证源？(一个用于Oauth2,一个用于基于表单的登录)》经验，为你挑选了0个好方法。 ... [详细]
程序员
std :: move of string literal - 哪个编译器正确？

如何解决《std::moveofstringliteral-哪个编译器正确？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Action Bar xamarin中删除图标

如何解决《从ActionBarxamarin中删除图标》经验，为你挑选了2个好方法。 ... [详细]
程序员
C在使用scanf时动态分配struct,seg fault

如何解决《C在使用scanf时动态分配struct,segfault》经验，为你挑选了1个好方法。 ... [详细]
程序员
在tensorflow中使用dropout时出错

如何解决《在tensorflow中使用dropout时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
升级对3中消失的Datastax Java API的调用

如何解决《升级对3中消失的DatastaxJavaAPI的调用》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在IOS中的UIStackView中设置权重

如何解决《如何在IOS中的UIStackView中设置权重》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ruby on Rails - Postgres:数组值必须以"{"或维度信息开头

如何解决《RubyonRails-Postgres:数组值必须以"{"或维度信息开头》经验，为你挑选了1个好方法。 ... [详细]
程序员
R中的条件数据帧突变与magrittr和dplyr

如何解决《R中的条件数据帧突变与magrittr和dplyr》经验，为你挑选了3个好方法。 ... [详细]
程序员
用于在云中托管Java PLAY应用程序的服务器体系结构

如何解决《用于在云中托管JavaPLAY应用程序的服务器体系结构》经验，为你挑选了0个好方法。 ... [详细]
程序员
控制台窗口的输出是否有限制？

如何解决《控制台窗口的输出是否有限制？》经验，为你挑选了1个好方法。 ... [详细]

郑小蒜9299_941611_G

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章