13赞

模式匹配-Spark Scala RDD

作者：周扒pi | 2023-09-11 12:49

如何解决《模式匹配-SparkScalaRDD》经验，为你挑选了1个好方法。

我是R背景的Spark和Scala的新手，在对RDD进行了一些转换之后，我得到了RDD类型

Description: RDD[(String, Int)]

现在，我想在字符串RDD上应用正则表达式，并从字符串中提取子字符串，然后仅在新列中添加子字符串。

输入数据：

BMW 1er Model,278
MINI Cooper Model,248

我正在寻找的输出：

   Input                  |  Brand   | Series      
BMW 1er Model,278,          BMW ,        1er        
MINI Cooper Model ,248      MINI ,      Cooper

其中Brand和Series是来自字符串RDD的新计算的子字符串

到目前为止我所做的。

我可以使用正则表达式为String实现此功能，但是我可以将其应用于所有行。

 val brandRegEx = """^.*[Bb][Mm][Ww]+|.[Mm][Ii][Nn][Ii]+.*$""".r //to look for BMW or MINI

那我可以用

brandRegEx.findFirstIn("hello this mini is bmW testing")

但是，如何将它用于RDD的所有行并应用不同的正则表达式来实现上述输出。

我阅读了有关此代码段的信息，但不确定如何将其完全放在一起。

val brandRegEx = """^.*[Bb][Mm][Ww]+|.[Mm][Ii][Nn][Ii]+.*$""".r

def getBrand(Col4: String) : String = Col4 match {
    case brandRegEx(str)  =>  
    case _ => ""
    return 'substring
}

任何帮助，将不胜感激！

谢谢

1> mattinbits..：

要将正则表达式应用于RDD中的每一项，您应使用RDD map函数，该函数使用某些函数（在本例中为Partial Function来转换RDD中的每一行，以便提取到组成每个元组的两部分）行）：

import org.apache.spark.{SparkContext, SparkConf}

object Example extends App {

  val sc = new SparkContext(new SparkConf().setMaster("local").setAppName("Example"))

  val data = Seq(
    ("BMW 1er Model",278),
    ("MINI Cooper Model",248))

  val dataRDD = sc.parallelize(data)

  val processedRDD = dataRDD.map{
    case (inString, inInt) =>
      val brandRegEx = """^.*[Bb][Mm][Ww]+|.[Mm][Ii][Nn][Ii]+.*$""".r
      val brand = brandRegEx.findFirstIn(inString)
      //val seriesRegEx = ...
      //val series = seriesRegEx.findFirstIn(inString)
      val series = "foo"
      (inString, inInt, brand, series)
  }

  processedRDD.collect().foreach(println)
  sc.stop()
}

请注意，我认为您的正则表达式存在一些问题，并且还需要一个正则表达式来查找序列。此代码输出：

(BMW 1er Model,278,BMW,foo)
(MINI Cooper Model,248,NOT FOUND,foo)

但是，如果您根据需要更正了正则表达式，这就是将它们应用于每行的方法。

推荐阅读

程序员
从Collectors.partitioningBy返回非类类型

如何解决《从Collectors.partitioningBy返回非类类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
单身人士如何妨碍可测试性

如何解决《单身人士如何妨碍可测试性》经验，为你挑选了1个好方法。 ... [详细]
程序员
没有定义React类(text/babel)

如何解决《没有定义React类(text/babel)》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么分段错误在gdb中不可重现？

如何解决《为什么分段错误在gdb中不可重现？》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL中的用例语句

如何解决《SQL中的用例语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过使第一行与另一个列表匹配来对列表列表进行排序？

如何解决《如何通过使第一行与另一个列表匹配来对列表列表进行排序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在部署时动态更改dockerrun.aws.json图像标记

如何解决《在部署时动态更改dockerrun.aws.json图像标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用JavaScript访问C#dll

如何解决《如何使用JavaScript访问C#dll》经验，为你挑选了1个好方法。 ... [详细]
程序员
Eclipse Debugger不会在条件断点处停止

如何解决《EclipseDebugger不会在条件断点处停止》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery wrap new元素不起作用

如何解决《jQuerywrapnew元素不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
artifact:mvn ant任务因maven 3.3.x而失败

如何解决《artifact:mvnant任务因maven3.3.x而失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
将2个集合转换为Map

如何解决《将2个集合转换为Map》经验，为你挑选了1个好方法。 ... [详细]
程序员
Google Places API Framework文件夹iOS中缺少某些类

如何解决《GooglePlacesAPIFramework文件夹iOS中缺少某些类》经验，为你挑选了0个好方法。 ... [详细]
程序员
WHERE语句在使用It.IsAny的单元测试中不起作用

如何解决《WHERE语句在使用It.IsAny的单元测试中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以快捷方式检查变量是否为"nil"并替换为默认值？

如何解决《我可以快捷方式检查变量是否为"nil"并替换为默认值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery:分离还是不分离？

如何解决《jQuery:分离还是不分离？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用THREE.DecalGeometry为贴花设置正确的方向

如何解决《如何使用THREE.DecalGeometry为贴花设置正确的方向》经验，为你挑选了0个好方法。 ... [详细]
程序员
我可以在流链中访问先前lambda的值吗？

如何解决《我可以在流链中访问先前lambda的值吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery选择了滚动问题,包含所选内容的元素不滚动

如何解决《jQuery选择了滚动问题,包含所选内容的元素不滚动》经验，为你挑选了1个好方法。 ... [详细]
程序员
弹簧启动时MultipartFile的最大限制

如何解决《弹簧启动时MultipartFile的最大限制》经验，为你挑选了3个好方法。 ... [详细]

周扒pi

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章