3赞

从python中的字符串中剥离不可打印的字符

作者：echo7111436 | 2023-09-05 13:09

如何解决《从python中的字符串中剥离不可打印的字符》经验，为你挑选了5个好方法。

我用来跑

$s =~ s/[^[:print:]]//g;

在Perl上摆脱不可打印的字符.

在Python中没有POSIX正则表达式类,我不能写[:print:]让它意味着我想要的东西.我知道在Python中无法检测字符是否可打印.

你会怎么做？

编辑:它也必须支持Unicode字符.string.printable方式很乐意将它们从输出中剥离出来.对于任何unicode字符,curses.ascii.isprint都将返回false.

1> Ants Aasma..：

遗憾的是,迭代字符串在Python中相当慢.对于这种事情,正则表达式要快一个数量级.你只需要自己构建角色类.该unicodedata模块是这个相当有帮助,尤其是unicodedata.category()函数.有关类别的说明,请参阅Unicode字符数据库.

import unicodedata, re

all_chars = (unichr(i) for i in xrange(0x110000))
control_chars = ''.join(c for c in all_chars if unicodedata.category(c) == 'Cc')
# or equivalently and much more efficiently
control_chars = ''.join(map(unichr, range(0,32) + range(127,160)))

control_char_re = re.compile('[%s]' % re.escape(control_chars))

def remove_control_chars(s):
    return control_char_re.sub('', s)

'Cc'在这里足够吗？我不知道,我只是问 - 在我看来,其他一些'C'类别也可能是这个过滤器的候选者.

对我来说`control_chars =='\ x00-\x1f\x7f-\x9f'`(在Python 3.5.2上测试过)

使用`all_chars =(unichr(i)for i in xrange(sys.maxunicode))`来避免窄的构建错误.

2> William Kell..：

据我所知,最pythonic /有效的方法是:

import string

filtered_string = filter(lambda x: x in string.printable, myStr)

您应该使用列表推导或生成器表达式,而不是filter + lambda.其中一个将99.9%的时间更快.''.join(对于myStr中的s,如果s在string.printable中)

可悲的是string.printable不包含unicode字符,因此ü或ó不会出现在输出中...也许还有别的东西？

你可能想要filter_string =''.join(filter(lambda x:x in string.printable,myStr),这样你就可以得到一个字符串.

嗨威廉.此方法似乎删除所有非ASCII字符.Unicode中有许多可打印的非ASCII字符!

@AaronGallagher:快了99.9%？你从那里采摘那个数字？性能比较远没那么糟糕.

@ChrisMorgan:迟到的反应,但声称它几乎总是会更快,而不是它会更快,更快.

3> Ber..：

您可以尝试使用以下unicodedata.category()功能设置过滤器:

import unicodedata
printable = {'Lu', 'Ll'}
def filter_non_printable(str):
  return ''.join(c for c in str if unicodedata.category(c) in printable)

请参阅可用类别的Unicode数据库字符属性

4> shawnrad..：

在Python 3中,

def filter_nonprintable(text):
    import string
    # Get the difference of all ASCII characters from the set of printable characters
    nonprintable = set([chr(i) for i in range(128)]).difference(string.printable)
    # Use translate to remove all non-printable characters
    return text.translate({ord(character):None for character in nonprintable})

有关.translate()与regex&.replace()的比较,请参阅此StackOverflow帖子,删除标点符号

5> Kirk Strause..：

此函数使用列表推导和str.join,因此它以线性时间而不是O(n ^ 2)运行:

from curses.ascii import isprint

def printable(input):
    return ''.join(char for char in input if isprint(char))

`滤波器(isprint判断,输入)`

推荐阅读

程序员
安装tensorflow时出错设置工具

如何解决《安装tensorflow时出错设置工具》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何检查一对多映射表中是否存在特定映射

如何解决《如何检查一对多映射表中是否存在特定映射》经验，为你挑选了1个好方法。 ... [详细]
程序员
与R的音频比较

如何解决《与R的音频比较》经验，为你挑选了1个好方法。 ... [详细]
程序员
SSL认证适用于localhost,但不适用于计算机名称或IP

如何解决《SSL认证适用于localhost,但不适用于计算机名称或IP》经验，为你挑选了1个好方法。 ... [详细]
程序员
未知类型名称“ zend_string”

如何解决《未知类型名称“zend_string”》经验，为你挑选了1个好方法。 ... [详细]
程序员
R启动时如何覆盖2GB内存限制

如何解决《R启动时如何覆盖2GB内存限制》经验，为你挑选了0个好方法。 ... [详细]
程序员
Django编码为utf8无法正常工作

如何解决《Django编码为utf8无法正常工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python中浮点数('Inf')有什么意义？

如何解决《Python中浮点数('Inf')有什么意义？》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用spring-hateoas反序列化JSON(链接+嵌入式容器)的便捷方法是什么？

如何解决《使用spring-hateoas反序列化JSON(链接+嵌入式容器)的便捷方法是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
调试单元测试时,Visual Studio c#不应启动IIS网站

如何解决《调试单元测试时,VisualStudioc#不应启动IIS网站》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#Task.WaitAll()如何将对象状态合并为一个？

如何解决《C#Task.WaitAll()如何将对象状态合并为一个？》经验，为你挑选了1个好方法。 ... [详细]
程序员
UIActivityViewController Gmail共享主题和正文相同

如何解决《UIActivityViewControllerGmail共享主题和正文相同》经验，为你挑选了0个好方法。 ... [详细]
程序员
在长模式下更改GDT并更新CS

如何解决《在长模式下更改GDT并更新CS》经验，为你挑选了1个好方法。 ... [详细]
程序员
[NSNull length]:无法识别的选择器在键盘按键上发送到实例？

如何解决《[NSNulllength]:无法识别的选择器在键盘按键上发送到实例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
node js函数返回[object Object]而不是字符串值

如何解决《nodejs函数返回[objectObject]而不是字符串值》经验，为你挑选了1个好方法。 ... [详细]
程序员
从AWS SDK,如何获取当前登录的用户名(或IAM用户)？

如何解决《从AWSSDK,如何获取当前登录的用户名(或IAM用户)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何创建动态子域rails

如何解决《如何创建动态子域rails》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android编辑文本屏蔽

如何解决《Android编辑文本屏蔽》经验，为你挑选了0个好方法。 ... [详细]
程序员
在一段时间不活动后,在PHP CLI脚本中运行功能

如何解决《在一段时间不活动后,在PHPCLI脚本中运行功能》经验，为你挑选了0个好方法。 ... [详细]
程序员
Ruby哈希的map_values()？

如何解决《Ruby哈希的map_values()？》经验，为你挑选了2个好方法。 ... [详细]

echo7111436

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章