当前位置:  开发笔记 > 编程语言 > 正文

NLTK/pyNLTK可以"按语言"(即非英语),以及如何工作?

如何解决《NLTK/pyNLTK可以"按语言"(即非英语),以及如何工作?》经验,为你挑选了1个好方法。

如何告诉NLTK以特定语言处理文本?

有一段时间我会编写一个专门的NLP例程,在非英语(但仍然是欧洲的)欧洲文本域上进行POS标记,标记等操作.

这个问题似乎只涉及不同的语料库,而不是代码/设置的变化: 德语中的POS标记

或者,是否有任何专门用于python的希伯来语/西班牙语/波兰语NLP模块?



1> Matti Lyra..:

我不确定你所指的是代码/设置的变化.NLTK主要依赖于机器学习,并且通常从训练数据中提取"设置".

当涉及到POS标记时,结果和标记将取决于您使用/训练的标记器.如果你训练自己,你当然需要一些西班牙/波兰训练数据.这些可能很难找到的原因是缺乏公开的黄金标准材料.有一些工具可以做到这一点,但这个工具不适用于python(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/).

nltk.tokenize.punkt.PunktSentenceTokenizer标记器将根据多语言句子边界对句子进行标记,其详细信息可在本文中找到(http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485) .

推荐阅读
ifx0448363
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有