当前位置:  开发笔记 > 编程语言 > 正文

读取数据时如何删除unicode?

如何解决《读取数据时如何删除unicode?》经验,为你挑选了1个好方法。

我有以下几行Python代码:

trans = data.map(lambda line: line.strip().split())

产生Unicode字符串,例如:

u'Hello',u'word'

我想获取普通的UTF-8或ASCII字符串

'Hello','word' 

我试图将字符串转换为UTF-8,例如

trans = data.map(lambda line: line.strip().split().encode("utf-8"))

要么

trans = data.map(lambda line: line.strip().split().encode('ascii','ignore'))

但这给出了一个错误:

AttributeError: 'list' object has no attribute 'encode'

谁能告诉我该怎么做?

更新:

数据是scv文件,trans是RDD



1> zero323..:

为什么不简单地编码和拆分:

data = sc.textFile("README.md")
trans = data.map(lambda x: x.encode("ascii", "ignore").split())
trans.first()
## ['#', 'Apache', 'Spark']

推荐阅读
凹凸曼00威威_694
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有