我正在用scrapy写小爬虫.其中一个XPath包含价格后跟"zł"(波兰货币标记)问题是它被新行字符,空格和非破坏空格混淆.所以当我这样做时:
sel.xpath("div/div/span/span/text()[normalize-space(.)]").extract()
我明白了:
[u'\n 1\xa0740,00 z\u0142\n \n \n ']
我想改变的
[u'1740,00']
或者只是浮动变量.什么是/最好/最简单/最快的方法?
您可以使用re.findall
从字符串中提取字符:
>>> import re >>> s = u'\n 1\xa0740,00 z\u0142\n \n \n ' >>> L = re.findall(r'[\d,]', s) >>> "".join(L) '1740,00'