我正在解决一个问题,从字符串中删除重复的单词.例如,
输入: Goodbye bye bye world world world
输出: Goodbye bye world
我有一个来自在线资源的工作模式,但我无法理解其中的所有内容.
String pattern = "\\b(\\w+)(\\b\\W+\\b\\1\\b)*";
这是我的理解:
最初\\b
是匹配单词bounaries
(\\w+)
匹配一个或多个字符
在这个表达式中: (\\b\\W+\\b\\1\\b)*
一个.\\b
匹配单词边界
湾 \\W+
匹配一个或多个非单词字符
C.\\b
再次匹配一个单词bounary
d.\\1
??? 我不知道这是为了什么,但如果没有这个,它就无法运作
C.\\b
再次匹配一个单词bounary
正如你所看到的,我的主要困惑是关于第3项,尤其是\\1
.有谁能更清楚地解释一下?
使用Java,您可以使用前瞻功能使用反向引用删除前面具有相同匹配单词的所有单词:
final String regex = "\\b(\\w+)\\b\\s*(?=.*\\b\\1\\b)"; final String input = "Goodbye bye bye world world world\n"; final String result = input.replaceAll(regex, "");
在此处使用单词边界以避免匹配部分单词非常重要.
RegEx演示