使用斯坦福NLP(StanfordNERTagger和StanfordPOSTagger)为西班牙语设置NLTK

作者：我我檬檬我我186 | 2023-09-11 12:56

如何解决《使用斯坦福NLP(StanfordNERTagger和StanfordPOSTagger)为西班牙语设置NLTK》经验，为你挑选了1个好方法。

NLTK这种集成中的文档相当差.我遵循的步骤是:

下载http://nlp.stanford.edu/software/stanford-postagger-full-2015-04-20.zip到/home/me/stanford

下载http://nlp.stanford.edu/software/stanford-spanish-corenlp-2015-01-08-models.jar到/home/me/stanford

然后在ipython控制台中:

在[11]中:导入nltk

In [12]: nltk.__version__
Out[12]: '3.1'

In [13]: from nltk.tag import StanfordNERTagger

然后

st = StanfordNERTagger('/home/me/stanford/stanford-postagger-full-2015-04-20.zip', '/home/me/stanford/stanford-spanish-corenlp-2015-01-08-models.jar')

但是当我试图运行它时:

st.tag('Adolfo se la pasa corriendo'.split())
Error: no se ha encontrado o cargado la clase principal edu.stanford.nlp.ie.crf.CRFClassifier

---------------------------------------------------------------------------
OSError                                   Traceback (most recent call last)
 in ()
----> 1 st.tag('Adolfo se la pasa corriendo'.split())

/home/nanounanue/.pyenv/versions/3.4.3/lib/python3.4/site-packages/nltk/tag/stanford.py in tag(self, tokens)
     64     def tag(self, tokens):
     65         # This function should return list of tuple rather than list of list
---> 66         return sum(self.tag_sents([tokens]), [])
     67 
     68     def tag_sents(self, sentences):

/home/nanounanue/.pyenv/versions/3.4.3/lib/python3.4/site-packages/nltk/tag/stanford.py in tag_sents(self, sentences)
     87         # Run the tagger and get the output
     88         stanpos_output, _stderr = java(cmd, classpath=self._stanford_jar,
---> 89                                                        stdout=PIPE, stderr=PIPE)
     90         stanpos_output = stanpos_output.decode(encoding)
     91 

/home/nanounanue/.pyenv/versions/3.4.3/lib/python3.4/site-packages/nltk/__init__.py in java(cmd, classpath, stdin, stdout, stderr, blocking)
    132     if p.returncode != 0:
    133         print(_decode_stdoutdata(stderr))
--> 134         raise OSError('Java command failed : ' + str(cmd))
    135 
    136     return (stdout, stderr)

OSError: Java command failed : ['/usr/bin/java', '-mx1000m', '-cp', '/home/nanounanue/Descargas/stanford-spanish-corenlp-2015-01-08-models.jar', 'edu.stanford.nlp.ie.crf.CRFClassifier', '-loadClassifier', '/home/nanounanue/Descargas/stanford-postagger-full-2015-04-20.zip', '-textFile', '/tmp/tmp6y169div', '-outputFormat', 'slashTags', '-tokenizerFactory', 'edu.stanford.nlp.process.WhitespaceTokenizer', '-tokenizerOptions', '"tokenizeNLs=false"', '-encoding', 'utf8']

同样的情况发生在 StandfordPOSTagger

注意:我需要这是西班牙语版本. 注意:我正在运行它python 3.4.3

1> alvas..：

尝试:

# StanfordPOSTagger
from nltk.tag.stanford import StanfordPOSTagger
stanford_dir = '/home/me/stanford/stanford-postagger-full-2015-04-20/'
modelfile = stanford_dir + 'models/english-bidirectional-distsim.tagger'
jarfile = stanford_dir + 'stanford-postagger.jar'

st = StanfordPOSTagger(model_filename=modelfile, path_to_jar=jarfile)


# NERTagger
stanford_dir = '/home/me/stanford/stanford-ner-2015-04-20/'
jarfile = stanford_dir + 'stanford-ner.jar'
modelfile = stanford_dir + 'classifiers/english.all.3class.distsim.crf.ser.gz'

st = StanfordNERTagger(model_filename=modelfile, path_to_jar=jarfile)

有关使用Stanford工具的NLTK API的详细信息,请查看:https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software#stanford-tagger-ner-tokenizer-and-parser

注意: NLTK API适用于各个斯坦福工具,如果您使用的是Stanford Core NLP,最好遵循http://www.eecs.qmul.ac.uk/~dm303/stanford-dependency-上的 @dimazest说明.解析器NLTK-和anaconda.html

EDITED

至于西班牙语NER标记,我强烈建议您使用Stanford Core NLP(http://nlp.stanford.edu/software/corenlp.shtml)而不是使用Stanford NER包(http://nlp.stanford.edu/)软件/ CRF-NER.shtml).并按照@dimazest解决方案进行JSON文件读取.

或者,如果您必须使用NER包,您可以尝试按照https://github.com/alvations/nltk_cli的说明进行操作(免责声明:此回购协议与NLTK无法正式关联).在unix命令行上执行以下操作:

cd $HOME
wget http://nlp.stanford.edu/software/stanford-spanish-corenlp-2015-01-08-models.jar
unzip stanford-spanish-corenlp-2015-01-08-models.jar -d stanford-spanish
cp stanford-spanish/edu/stanford/nlp/models/ner/* /home/me/stanford/stanford-ner-2015-04-20/ner/classifiers/

然后在python中:

# NERTagger
stanford_dir = '/home/me/stanford/stanford-ner-2015-04-20/'
jarfile = stanford_dir + 'stanford-ner.jar'
modelfile = stanford_dir + 'classifiers/spanish.ancora.distsim.s512.crf.ser.gz'

st = StanfordNERTagger(model_filename=modelfile, path_to_jar=jarfile)

推荐阅读

程序员
选中复选框时在阵列上推送数据,并在取消选中复选框时删除数据

如何解决《选中复选框时在阵列上推送数据,并在取消选中复选框时删除数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有可能改变Angular Material的mdSwitch的假状态颜色？

如何解决《是否有可能改变AngularMaterial的mdSwitch的假状态颜色？》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP exec失败没有错误

如何解决《PHPexec失败没有错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
应用程序在抽屉中使用MMDrawerController Gesture崩溃

如何解决《应用程序在抽屉中使用MMDrawerControllerGesture崩溃》经验，为你挑选了0个好方法。 ... [详细]
程序员
找到Farbtastic颜色选择器当前值

如何解决《找到Farbtastic颜色选择器当前值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在xcode中可以看到0个本地化文件的本地化文件

如何解决《在xcode中可以看到0个本地化文件的本地化文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何查看安装的pip包大小？

如何解决《如何查看安装的pip包大小？》经验，为你挑选了2个好方法。 ... [详细]
程序员
通过PowerShell编写和读取XML配置

如何解决《通过PowerShell编写和读取XML配置》经验，为你挑选了1个好方法。 ... [详细]
程序员
ArrayIndexOutOfBoundsException和IndexOutOfBoundsException之间的区别？

如何解决《ArrayIndexOutOfBoundsException和IndexOutOfBoundsException之间的区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
FactoMineR MCA中"哪个'不符合逻辑"的含义是什么意思？

如何解决《FactoMineRMCA中"哪个'不符合逻辑"的含义是什么意思？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用form_tag在Rails中上传文件

如何解决《使用form_tag在Rails中上传文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
验证来自iOS transactionReceipt的签名

如何解决《验证来自iOStransactionReceipt的签名》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法启动'./qemu/windows-x86_64/qemu-system-i386.exe':没有此类文件或目录

如何解决《无法启动'./qemu/windows-x86_64/qemu-system-i386.exe':没有此类文件或目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python dask中使用分隔符读取csv

如何解决《在pythondask中使用分隔符读取csv》经验，为你挑选了1个好方法。 ... [详细]
程序员
JavaScript显示/隐藏边框/线条

如何解决《JavaScript显示/隐藏边框/线条》经验，为你挑选了0个好方法。 ... [详细]
程序员
C++模板部分特化由指针函数/ const指针函数没有不同？

如何解决《C++模板部分特化由指针函数/const指针函数没有不同？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Docker容器中的Java进程不会在main()的末尾退出

如何解决《Docker容器中的Java进程不会在main()的末尾退出》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么可以在Go中的多个return语句中重新定义err

如何解决《为什么可以在Go中的多个return语句中重新定义err》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Wifi将Lua脚本上传到NodeMCU

如何解决《使用Wifi将Lua脚本上传到NodeMCU》经验，为你挑选了1个好方法。 ... [详细]
程序员
是没有价值的选择选项,有效吗？

如何解决《是没有价值的选择选项,有效吗？》经验，为你挑选了1个好方法。 ... [详细]

我我檬檬我我186

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章