假设您有一个类似这样的文本文件:http: //www.gutenberg.org/files/17921/17921-8.txt
有没有人有一个好的算法或开源代码从文本文件中提取单词?如何获取所有单词,同时避免使用特殊字符,并保留"它是"等内容......
我在Java工作.谢谢
这听起来像是正则表达式的正确工作.这里有一些Java代码可以为您提供一个想法,以防您不知道如何开始:
String input = "Input text, with words, punctuation, etc. Well, it's rather short."; Pattern p = Pattern.compile("[\\w']+"); Matcher m = p.matcher(input); while ( m.find() ) { System.out.println(input.substring(m.start(), m.end())); }
该模式[\w']+
多次匹配所有单词字符和撇号.示例字符串将逐字打印.查看Java Pattern类文档以阅读更多内容.