16赞

当前位置: 开发笔记 > 编程语言 > 正文

如何将字符串拆分为列表？

作者：夏晶阳--艺术 | 2023-09-05 13:39

如何解决《如何将字符串拆分为列表？》经验，为你挑选了6个好方法。

如果我有这个字符串:

2 + 24*32分之48

创建此列表的最有效方法是什么:

['2','+','24','*','48','/','32']

Glyph.. 50

只是碰巧你想要拆分的令牌已经是Python令牌,所以你可以使用内置tokenize模块.它几乎是一个单行:

from cStringIO import StringIO
from tokenize import generate_tokens
STRING = 1
list(token[STRING] for token 
     in generate_tokens(StringIO('2+24*48/32').readline)
     if token[STRING])
['2', '+', '24', '*', '48', '/', '32']

Readonly.. 36

您可以split从re模块中使用.

re.split(pattern,string,maxsplit = 0,flags = 0)

按模式的出现拆分字符串.如果在模式中使用捕获括号,则模式中所有组的文本也将作为结果列表的一部分返回.

示例代码:

import re
data = re.split(r'(\D)', '2+24*48/32')

\ d

如果未指定UNICODE标志,则\ D匹配任何非数字字符; 这相当于集[^ 0-9].

Jerub.. 18

这看起来像解析问题,因此我不得不提出基于解析技术的解决方案.

虽然看起来你想要"拆分"这个字符串,但我认为你真正想做的就是"标记"它.标记化或lexxing是解析之前的编译步骤.我在编辑中修改了我的原始示例,以在此处实现正确的递归正确解析器.这是手动实现解析器的最简单方法.

import re

patterns = [
    ('number', re.compile('\d+')),
    ('*', re.compile(r'\*')),
    ('/', re.compile(r'\/')),
    ('+', re.compile(r'\+')),
    ('-', re.compile(r'\-')),
]
whitespace = re.compile('\W+')

def tokenize(string):
    while string:

        # strip off whitespace
        m = whitespace.match(string)
        if m:
            string = string[m.end():]

        for tokentype, pattern in patterns:
            m = pattern.match(string)
            if m:
                yield tokentype, m.group(0)
                string = string[m.end():]

def parseNumber(tokens):
    tokentype, literal = tokens.pop(0)
    assert tokentype == 'number'
    return int(literal)

def parseMultiplication(tokens):
    product = parseNumber(tokens)
    while tokens and tokens[0][0] in ('*', '/'):
        tokentype, literal = tokens.pop(0)
        if tokentype == '*':
            product *= parseNumber(tokens)
        elif tokentype == '/':
            product /= parseNumber(tokens)
        else:
            raise ValueError("Parse Error, unexpected %s %s" % (tokentype, literal))

    return product

def parseAddition(tokens):
    total = parseMultiplication(tokens)
    while tokens and tokens[0][0] in ('+', '-'):
        tokentype, literal = tokens.pop(0)
        if tokentype == '+':
            total += parseMultiplication(tokens)
        elif tokentype == '-':
            total -= parseMultiplication(tokens)
        else:
            raise ValueError("Parse Error, unexpected %s %s" % (tokentype, literal))

    return total

def parse(tokens):
    tokenlist = list(tokens)
    returnvalue = parseAddition(tokenlist)
    if tokenlist:
        print 'Unconsumed data', tokenlist
    return returnvalue

def main():
    string = '2+24*48/32'
    for tokentype, literal in tokenize(string):
        print tokentype, literal

    print parse(tokenize(string))

if __name__ == '__main__':
    main()

处理括号的实施留给读者练习.此示例将在添加之前正确执行乘法.

1> Glyph..：

只是碰巧你想要拆分的令牌已经是Python令牌,所以你可以使用内置tokenize模块.它几乎是一个单行:

from cStringIO import StringIO
from tokenize import generate_tokens
STRING = 1
list(token[STRING] for token 
     in generate_tokens(StringIO('2+24*48/32').readline)
     if token[STRING])
['2', '+', '24', '*', '48', '/', '32']

2> Readonly..：

您可以split从re模块中使用.

re.split(pattern,string,maxsplit = 0,flags = 0)

按模式的出现拆分字符串.如果在模式中使用捕获括号,则模式中所有组的文本也将作为结果列表的一部分返回.

示例代码:

import re
data = re.split(r'(\D)', '2+24*48/32')

\ d

如果未指定UNICODE标志,则\ D匹配任何非数字字符; 这相当于集[^ 0-9].

3> Jerub..：

这看起来像解析问题,因此我不得不提出基于解析技术的解决方案.

import re

patterns = [
    ('number', re.compile('\d+')),
    ('*', re.compile(r'\*')),
    ('/', re.compile(r'\/')),
    ('+', re.compile(r'\+')),
    ('-', re.compile(r'\-')),
]
whitespace = re.compile('\W+')

def tokenize(string):
    while string:

        # strip off whitespace
        m = whitespace.match(string)
        if m:
            string = string[m.end():]

        for tokentype, pattern in patterns:
            m = pattern.match(string)
            if m:
                yield tokentype, m.group(0)
                string = string[m.end():]

def parseNumber(tokens):
    tokentype, literal = tokens.pop(0)
    assert tokentype == 'number'
    return int(literal)

def parseMultiplication(tokens):
    product = parseNumber(tokens)
    while tokens and tokens[0][0] in ('*', '/'):
        tokentype, literal = tokens.pop(0)
        if tokentype == '*':
            product *= parseNumber(tokens)
        elif tokentype == '/':
            product /= parseNumber(tokens)
        else:
            raise ValueError("Parse Error, unexpected %s %s" % (tokentype, literal))

    return product

def parseAddition(tokens):
    total = parseMultiplication(tokens)
    while tokens and tokens[0][0] in ('+', '-'):
        tokentype, literal = tokens.pop(0)
        if tokentype == '+':
            total += parseMultiplication(tokens)
        elif tokentype == '-':
            total -= parseMultiplication(tokens)
        else:
            raise ValueError("Parse Error, unexpected %s %s" % (tokentype, literal))

    return total

def parse(tokens):
    tokenlist = list(tokens)
    returnvalue = parseAddition(tokenlist)
    if tokenlist:
        print 'Unconsumed data', tokenlist
    return returnvalue

def main():
    string = '2+24*48/32'
    for tokentype, literal in tokenize(string):
        print tokentype, literal

    print parse(tokenize(string))

if __name__ == '__main__':
    main()

处理括号的实施留给读者练习.此示例将在添加之前正确执行乘法.

4> molasses..：

>>> import re
>>> re.findall(r'\d+|\D+', '2+24*48/32=10')

['2', '+', '24', '*', '48', '/', '32', '=', '10']

匹配连续数字或连续的非数字.

每个匹配都作为列表中的新元素返回.

根据用途,您可能需要更改正则表达式.例如,如果您需要匹配小数点的数字.

>>> re.findall(r'[0-9\.]+|[^0-9\.]+', '2+24*48/32=10.1')

['2', '+', '24', '*', '48', '/', '32', '=', '10.1']

5> Ber..：

这是一个解析问题,因此正则表达式和split()都不是"好"的解决方案.请改用解析器生成器.

我会密切关注pyparsing.在Python杂志中也有一些关于pyparsing的体面文章.

6> Jiayao Yu..：

s ="2 + 24*48/32"

p = re.compile(r'(\ W +)')

p.split(S)

推荐阅读

程序员
除了一个之外的所有测试之前(:每个)

如何解决《除了一个之外的所有测试之前(:每个)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Facebook登录测试主机时"客户端OAuth设置中的URL未列入白名单"

如何解决《Facebook登录测试主机时"客户端OAuth设置中的URL未列入白名单"》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在Metal中不允许的片段着色器中写入缓冲区？

如何解决《为什么在Metal中不允许的片段着色器中写入缓冲区？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Visual Studio Code中自动添加NuGet依赖项和使用语句？

如何解决《在VisualStudioCode中自动添加NuGet依赖项和使用语句？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以使materialize.css模式更大并删除垂直滚动条？

如何解决《是否可以使materialize.css模式更大并删除垂直滚动条？》经验，为你挑选了1个好方法。 ... [详细]
程序员
.NET 2.0运行时的LINQ

如何解决《.NET2.0运行时的LINQ》经验，为你挑选了6个好方法。 ... [详细]
程序员
在没有Visual Studio的情况下为ASP.NET-MVC开发

如何解决《在没有VisualStudio的情况下为ASP.NET-MVC开发》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Java中创建自定义JButton

如何解决《在Java中创建自定义JButton》经验，为你挑选了5个好方法。 ... [详细]
程序员
如何定义具有潜在子元素和属性属性的自定义web.config节？

如何解决《如何定义具有潜在子元素和属性属性的自定义web.config节？》经验，为你挑选了3个好方法。 ... [详细]
程序员
简单的AJAX WebControls方式

如何解决《简单的AJAXWebControls方式》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从内容页面后面的代码更改母版页的背景？

如何解决《如何从内容页面后面的代码更改母版页的背景？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在.NET 2.0中实现BDD/TDD的最佳方法是什么？

如何解决《在.NET2.0中实现BDD/TDD的最佳方法是什么？》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在IDE或构建脚本中对Flex应用程序进行单元测试？

如何解决《如何在IDE或构建脚本中对Flex应用程序进行单元测试？》经验，为你挑选了1个好方法。 ... [详细]
程序员
数据集与数据集

如何解决《数据集与数据集》经验，为你挑选了4个好方法。 ... [详细]
程序员
在Eclipse中,为什么"自动构建"会被神秘地禁用？

如何解决《在Eclipse中,为什么"自动构建"会被神秘地禁用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用CherryPy配置IP地址？

如何解决《如何使用CherryPy配置IP地址？》经验，为你挑选了3个好方法。 ... [详细]
程序员
为快速搜索DB2索引空值

如何解决《为快速搜索DB2索引空值》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么时候(和错误的时间)使用反引号？

如何解决《什么时候(和错误的时间)使用反引号？》经验，为你挑选了5个好方法。 ... [详细]
程序员
如何在Windows上静态编译SDL游戏

如何解决《如何在Windows上静态编译SDL游戏》经验，为你挑选了1个好方法。 ... [详细]
程序员
小网站图片的格式是什么？GIF还是PNG？

如何解决《小网站图片的格式是什么？GIF还是PNG？》经验，为你挑选了4个好方法。 ... [详细]

夏晶阳--艺术

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章