当前位置:  开发笔记 > 人工智能 > 正文

Stanford CoreNLP命名实体识别如何捕获5英寸,5英寸,5英寸,5英寸等测量值

如何解决《StanfordCoreNLP命名实体识别如何捕获5英寸,5英寸,5英寸,5英寸等测量值》经验,为你挑选了1个好方法。

我希望使用Stanford CoreNLP捕获测量结果.(如果你可以建议一个不同的提取器,那也没关系.)

例如,我想找到15千克,15公斤,15.0公斤,15公斤,15磅,15磅等,但其中CoreNLPs抽取规则,我没有看到一个用于测量.

当然,我可以使用纯正则表达式执行此操作,但工具包可以更快地运行,并且它们提供了更高级别的块的机会,例如将gbGB一起处理,RAM内存作为构建块 - 即使没有完整语法分析 - 因为它们构建了更大的单元,如128 gb RAM8 GB内存.

我想要一个基于规则的提取器,而不是基于机器学习的提取器,但是不要将其作为RegexNer或其他地方的一部分.我该怎么做?

IBM命名实体提取可以做到这一点.正则表达式以有效的方式运行,而不是将文本传递给每个正则表达式.并且正则表达式被捆绑以表达有意义的实体,例如将所有测量单元组合成单个概念的实体.



1> Gabor Angeli..:

我不认为这个特定任务存在基于规则的系统.但是,使用TokensregexNER并不难.例如,映射如:

[{ner:NUMBER}]+ /(k|m|g|t)b/ memory?   MEMORY
[{ner:NUMBER}]+ /"|''|in(ches)?/       LENGTH
...

您也可以尝试使用vanilla TokensRegex,然后使用捕获组提取相关值:

(?$group_name [{ner:NUMBER}]+) /(k|m|g|t)b/ memory?

推荐阅读
依然-狠幸福
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有