当前位置:  开发笔记 > 编程语言 > 正文

解析空格分隔文本的最佳方法

如何解决《解析空格分隔文本的最佳方法》经验,为你挑选了2个好方法。

我有这样的字符串

 /c SomeText\MoreText "Some Text\More Text\Lol" SomeText

我想对它进行标记,但是我不能只是在空格上分开.我想出了一个有点丑陋的解析器,但是我想知道是否有人有更优雅的设计.

这是在C#btw中.

编辑:我的丑陋版本,虽然丑陋,是O(N),实际上可能比使用RegEx更快.

private string[] tokenize(string input)
{
    string[] tokens = input.Split(' ');
    List output = new List();

    for (int i = 0; i < tokens.Length; i++)
    {
        if (tokens[i].StartsWith("\""))
        {
            string temp = tokens[i];
            int k = 0;
            for (k = i + 1; k < tokens.Length; k++)
            {
                if (tokens[k].EndsWith("\""))
                {
                    temp += " " + tokens[k];
                    break;
                }
                else
                {
                    temp += " " + tokens[k];
                }
            }
            output.Add(temp);
            i = k + 1;
        }
        else
        {
            output.Add(tokens[i]);
        }
    }

    return output.ToArray();            
}

Todd Myhre.. 16

你正在做的计算机术语是词法分析 ; 阅读以获取此常见任务的总结.

根据你的例子,我猜你想要用空格分隔你的单词,但引号中的东西应该被视为没有引号的"单词".

最简单的方法是将单词定义为正则表达式:

([^"^\s]+)\s*|"([^"]+)"\s*

该表达式指出"单词"是(1)非引号,由空格包围的非空白文本,或(2)由引号括起的非引用文本(后跟一些空格).请注意使用捕获括号来突出显示所需的文本.

使用该正则表达式,您的算法很简单:在文本中搜索捕获括号定义的下一个"单词",然后返回它.重复一遍,直到你用完"单词".

这是我在VB.NET中可以提出的最简单的工作代码.请注意,我们必须检查两个组的数据,因为有两组捕获括号.

Dim token As String
Dim r As Regex = New Regex("([^""^\s]+)\s*|""([^""]+)""\s*")
Dim m As Match = r.Match("this is a ""test string""")

While m.Success
    token = m.Groups(1).ToString
    If token.length = 0 And m.Groups.Count > 1 Then
        token = m.Groups(2).ToString
    End If
    m = m.NextMatch
End While

注1:上面的答案是否与此答案相同.希望这个答案能够更好地解释幕后的细节:)



1> Todd Myhre..:

你正在做的计算机术语是词法分析 ; 阅读以获取此常见任务的总结.

根据你的例子,我猜你想要用空格分隔你的单词,但引号中的东西应该被视为没有引号的"单词".

最简单的方法是将单词定义为正则表达式:

([^"^\s]+)\s*|"([^"]+)"\s*

该表达式指出"单词"是(1)非引号,由空格包围的非空白文本,或(2)由引号括起的非引用文本(后跟一些空格).请注意使用捕获括号来突出显示所需的文本.

使用该正则表达式,您的算法很简单:在文本中搜索捕获括号定义的下一个"单词",然后返回它.重复一遍,直到你用完"单词".

这是我在VB.NET中可以提出的最简单的工作代码.请注意,我们必须检查两个组的数据,因为有两组捕获括号.

Dim token As String
Dim r As Regex = New Regex("([^""^\s]+)\s*|""([^""]+)""\s*")
Dim m As Match = r.Match("this is a ""test string""")

While m.Success
    token = m.Groups(1).ToString
    If token.length = 0 And m.Groups.Count > 1 Then
        token = m.Groups(2).ToString
    End If
    m = m.NextMatch
End While

注1:上面的答案是否与此答案相同.希望这个答案能够更好地解释幕后的细节:)



2> 小智..:

Microsoft.VisualBasic.FileIO命名空间(在Microsoft.VisualBasic.dll中)有一个TextFieldParser,可用于拆分空格分隔文本.它处理引号内的字符串(即"这是一个令牌"thisistokew).

注意,仅仅因为DLL说VisualBasic并不意味着你只能在VB项目中使用它.它是整个框架的一部分.

推荐阅读
和谐啄木鸟
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有