2赞

Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space

作者：linjiabin43 | 2021-11-03 02:51

今天遇到一个问题，使用python的find函数寻找字符串中的第一个空格时没有找到正确的位置,下面是解决方法,需要的朋友可以参考下

今天遇到一个问题，使用python的find函数寻找字符串中的第一个空格时没有找到正确的位置，例如：

http://zc.whmc.edu.cn ==> 无法访问的网站或无效的招标网站

使用find(" ")函数寻找时找到的第一个空格对应在==>后面的那个位置。一开始觉得是编码问题，但是文件是用UTF-8编码的，按理说不应该产生编码问题，就用Sublime打开一看是这样的：

可以看到，我的Sublime设置了显示空白，所以第二个红线上方有一个白点，而第一个红线上方却没有，这说明第一个红线上方那个字符确实不是一个空格，也就是说函数的运行没有问题。但那个空格倒底是个什么东西呢？在Sublime中File-->Reopen with Encoding-->Hexadecimal打开文件可以看到是这样的：

在网上可以查到，==>对应的UTF-8编码是\x3d\x3d\x3e，所以前面的那个神秘字符的编码就是\xc2\xa0，上网查到这是一个叫做Non-breaking space的东西，用于阻止在此处自动换行和阻止多个空格被压缩成一个。至于解决方法，先用subplace("\xc2\xa0", " ")把这个特殊的空格替换一下就行了。

去除特殊空格：\xc2\xa0

在去除空格的时候遇到一种情况：

a = '2 '
b = '3'
print a.split(),b

输出结果：

['2\xc2\xa0'] 3

在网上可以查到，==>对应的UTF-8编码是\x3d\x3d\x3e，所以前面的那个神秘字符的编码就是\xc2\xa0，上网查到这是一个叫做Non-breaking space的东西，用于阻止在此处自动换行和阻止多个空格被压缩成一个。至于解决方法，先用subplace("\xc2\xa0", " ")

a = '2 '
b = '3'
 
print a.replace("\xc2\xa0", ""),b

输出结果：

python 爬虫爬取内容时， \xa0 、 \u3000 的含义与处理方法

处理方法

str.replace(u'\xa0', u' ')

最近用 scrapy 爬某网站，发现拿到的内容里面含有 \xa0 、 \u3000 这样的字符，起初还以为是编码不对，搜了一下才知道是见识太少 233 。

\xa0 是不间断空白符

我们通常所用的空格是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。通常我们见到的字符多数是 latin1 的，比如在 MySQL 数据库中。

这里也有一张简陋的Latin1字符集对照表。

\u3000 是全角的空白符

根据Unicode编码标准及其基本多语言面的定义， \u3000 属于CJK字符的CJK标点符号区块内，是空白字符之一。它的名字是 Ideographic Space ，有人译作表意字空格、象形字空格等。顾名思义，就是全角的 CJK 空格。它跟 nbsp 不一样，是可以被换行间断的。常用于制造缩进， wiki 还说用于抬头，但没见过。

这里还有一个 Unicode.org 上关于 CJK 标点符号块的字符代码表。

python中去掉字符串中的\xa0、\t、\n

今天帮女朋友从网络上收集一些信息，但是发现提取出的信息中有“\xa0”，并且无法去掉，查阅了相关资料，后发现该字符表示空格。

\xa0 是不间断空白符
我们通常所用的空格是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。通常我们见到的字符多数是 latin1 的，比如在 MySQL 数据库中。
有如下信息：

'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0,', 'V-neck\xa0\xa0V型领\xa0sleeve\xa0\xa0袖子\xa0,',

我们如何将其中的\xz0去掉呢，试了re模块的sub方法，发现没有作用，于是又开始查阅相关资料，终于解决了该问题。方法如下：

>>> inputstring = u'\n           Door:\xa0Novum     \t   '
>>> move = dict.fromkeys((ord(c) for c in u"\xa0\n\t"))
>>> output = inputstring.translate(move)
>>> output
'           Door:Novum

另外还有一种更简单的方法，利用split方法：

>>> s
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0'
>>> out = "".join(s.split())
>>> out
'T-shirt短袖圆领衫,体恤衫'

可以发现利用translate方法、split()可以完美解决，并且还可以替换\t \n字符，由此又学到了新知识！

关于ord函数：
ord()函数是chr()函数（对于8位的ASCII字符串）或unichr()函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的ASCII数值，或者Unicode数值，如果所给的Unicode字符超出了你的Python定义范围，则会引发一个TypeError的异常。

关于fromkeys方法：
dict中的fromkeys方法目的是创建一个只有key的字典，内部利用for循环，使三个字符的asii码值成为可迭代对象（本来的整数是不可迭代的），分别对其迭代，存入字典。

关于translate方法：
Python translate() 方法根据参数table给出的表(包含 256 个字符)转换字符串的字符, 要过滤掉的字符放到 del 参数中。接收到move返回的表（字典），之后对字符串进行替换。

join()方法：
join()：连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串。可见该处用join方法真的是神来之笔，可谓绝妙！

值得注意的是，split方法中不带参数时，表示分割所有换行符、制表符、空格。

python2 可以这样

s=s.replace(unichr(0xa0),'')

到此这篇关于Python 字符串处理特殊空格\xc2\xa0 Non-breaking space的文章就介绍到这了,更多相关Python 特殊空格内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
连接3个字符串并返回指向新字符串C的指针

如何解决《连接3个字符串并返回指向新字符串C的指针》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Angular 2中使用逗号作为列表分隔符

如何解决《在Angular2中使用逗号作为列表分隔符》经验，为你挑选了2个好方法。 ... [详细]
程序员
Alamofire - 如何通过分段上传获得进度和完成关闭

如何解决《Alamofire-如何通过分段上传获得进度和完成关闭》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据填充的必填字段构建和操作数组

如何解决《根据填充的必填字段构建和操作数组》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将字符串资源添加到cordova项目中的strings.xml

如何解决《如何将字符串资源添加到cordova项目中的strings.xml》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Autolayout水平对齐5个按钮的最佳方法是什么

如何解决《使用Autolayout水平对齐5个按钮的最佳方法是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何正确实现抽象类？

如何解决《如何正确实现抽象类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Espresso中测试ActionMenuItemView的图标

如何解决《如何在Espresso中测试ActionMenuItemView的图标》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio Text Visualizer缺少文本

如何解决《VisualStudioTextVisualizer缺少文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖UIImageView的图像getter/setter方法

如何解决《覆盖UIImageView的图像getter/setter方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Selenium浏览器窗口大小

如何解决《Selenium浏览器窗口大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是需要JDK 1.6的build-helper-maven-plugin的最新版本？

如何解决《什么是需要JDK1.6的build-helper-maven-plugin的最新版本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在aspnet5-rc1中禁用NTLM/Negotiate登录选项

如何解决《在aspnet5-rc1中禁用NTLM/Negotiate登录选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
react-bootstrap-table未对齐的标题列

如何解决《react-bootstrap-table未对齐的标题列》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Android Studio 2.0 Preview的FileOpUtils的ClassNotFoundException

如何解决《使用AndroidStudio2.0Preview的FileOpUtils的ClassNotFoundException》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从文件读取字节到byte []数组？

如何解决《如何从文件读取字节到byte[]数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在启用溢出检查的情况下编译和运行优化的Rust程序

如何解决《如何在启用溢出检查的情况下编译和运行优化的Rust程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的JS的任何方面是否会导致我的网站加载速度非常慢？

如何解决《我的JS的任何方面是否会导致我的网站加载速度非常慢？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django/python - 消除关于日期和时区意识的混淆

如何解决《Django/python-消除关于日期和时区意识的混淆》经验，为你挑选了0个好方法。 ... [详细]
程序员
MongoDB dataSize如何比storageSize更大？

如何解决《MongoDBdataSize如何比storageSize更大？》经验，为你挑选了1个好方法。 ... [详细]

linjiabin43

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章