当前位置:  开发笔记 > 编程语言 > 正文

部分语音标记 - 从哪里开始?

如何解决《部分语音标记-从哪里开始?》经验,为你挑选了1个好方法。

您好我想知道如何实现这样一个任务的解决方案:

有一个500Mb的普通英文文本.

我想收集关于单词频率的统计数据,但另外要确保每个单词都被正确识别(或大多数单词).

根据句子中的"哭","她给出一个响亮的CRY"将被归类为名词,"不要哭"将给动词统计.

此外,最好过滤正确的名称,以便他们形成另一个字典.

另一项任务将更加困难.我想找到经常聚集在一起的单词的出现,并建立这种出现的列表.

让我们说,"绿草","美丽的女孩","小心处理","你是对的".因此,我们可以准确地说,在语言中经常使用哪些单词序列.

我怎么开始?是否有关于这个主题的开放Java工具和好书?



1> Fabian Steeg..:

这些主题的优秀介绍是统计自然语言处理的基础.

统计自然语言处理基础http://nlp.stanford.edu/fsnlp/fsnlp.gif

在软件方面,您可以查看Stanford词性标注器或LingPipe等内容.

推荐阅读
周扒pi
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有