您好我想知道如何实现这样一个任务的解决方案:
有一个500Mb的普通英文文本.
我想收集关于单词频率的统计数据,但另外要确保每个单词都被正确识别(或大多数单词).
根据句子中的"哭","她给出一个响亮的CRY"将被归类为名词,"不要哭"将给动词统计.
此外,最好过滤正确的名称,以便他们形成另一个字典.
另一项任务将更加困难.我想找到经常聚集在一起的单词的出现,并建立这种出现的列表.
让我们说,"绿草","美丽的女孩","小心处理","你是对的".因此,我们可以准确地说,在语言中经常使用哪些单词序列.
我怎么开始?是否有关于这个主题的开放Java工具和好书?
这些主题的优秀介绍是统计自然语言处理的基础.
统计自然语言处理基础http://nlp.stanford.edu/fsnlp/fsnlp.gif
在软件方面,您可以查看Stanford词性标注器或LingPipe等内容.