当前位置:  开发笔记 > 编程语言 > 正文

如何在Perl中的Unicode字符串中仅匹配完全组合的字符?

如何解决《如何在Perl中的Unicode字符串中仅匹配完全组合的字符?》经验,为你挑选了2个好方法。

我正在寻找一种方法来匹配Unicode字符串中完全组合的字符.

是否[:print:]依赖于包含此字符类的任何正则表达式实现中的语言环境?例如,它是否匹配日语字符'あ',因为它不是控制字符,或者[:print:]总是是ASCII码0x20到0x7E?

是否有任何字符类,包括Perl REs,可以用来匹配控制字符以外的任何东西?如果[:print:]仅包括ASCII范围内的字符,我会假设[:cntrl:]也是如此.



1> Tanktalus..:
echo ?| perl -nle 'BEGIN{binmode STDIN,":utf8"} print"[$_]"; print /[[:print:]]/ ? "YES" : "NO"'

这主要是有效的,尽管它会产生关于广泛角色的警告.但它给了你一个想法:你必须确定你正在处理一个真正的unicode字符串(检查utf8 :: is_utf8).或者只是检查perlunicode - 整个主题仍然让我头晕.



2> moritz..:

我认为你不想或不需要语言环境,而是Unicode.如果您已解码文本字符串,\w将匹配任何语言的单词字符,不仅\d匹配,0..9而且匹配每个Unicode数字等.在正则表达式中,您可以使用查询Unicode属性\p{PropertyName}.你可能会特别感兴趣\p{Print}.这是所有可用Unicode字符属性的列表.

我写了一篇关于Unicode和Perl的基础知识和细微之处的文章,它应该让你知道如何做到这一点,perl会将你的字符串识别为一系列字符,而不仅仅是一个字节序列.

更新:使用Unicode,您不会获得与语言相关的行为,而是无论语言如何都能获得默认值.这可能是也可能不是你想要的,但是为了区分priintable/control字符,我不明白为什么你需要语言依赖的行为.

推荐阅读
有风吹过best
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有