我RDDs
在PySpark中有两个:
RDD1集:
[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00:00', u'a', u'ab', u'abc', u'g'),.....]
RDD2:
[(u'41',u'42.0'),(u'24',u'98.0'),....]
两者RDDs
都有相同的数字或行.现在我想做的是把所有的列从RDD1集的每一行(从转换中unicode
正常string
),并从RDD2每一行(从转换的第2列unicode string
到float
),并形成新的RDD这一点.所以新的RDD将如下所示:
RDD3:
[('2013-01-31 00:00:00', 'a', 'Pab', 'abc', 'd',42.0),('2013-01-31 00:00:00', 'a', 'ab', u'abc', 'g',98.0),.....]
完成后,我想通过第1列中的值在aggregation
此新行中的每一行(浮点值)中执行最后一个值.那芒在所有行的,他们最后的数值应予以补充.RDD3
date
date
2013-01-31 00:00:00
我怎么能在PySpark中做到这一点?