当前位置:  开发笔记 > 编程语言 > 正文

从文本文件中提取单词

如何解决《从文本文件中提取单词》经验,为你挑选了1个好方法。

假设您有一个类似这样的文本文件:http: //www.gutenberg.org/files/17921/17921-8.txt

有没有人有一个好的算法或开源代码从文本文件中提取单词?如何获取所有单词,同时避免使用特殊字符,并保留"它是"等内容......

我在Java工作.谢谢



1> Tomalak..:

这听起来像是正则表达式的正确工作.这里有一些Java代码可以为您提供一个想法,以防您不知道如何开始:

String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(input);

while ( m.find() ) {
    System.out.println(input.substring(m.start(), m.end()));
}

该模式[\w']+多次匹配所有单词字符和撇号.示例字符串将逐字打印.查看Java Pattern类文档以阅读更多内容.

推荐阅读
Life一切安好
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有