在nltk中打破/分解复杂和复合句子

作者：谢谢巷议 | 2023-07-02 13:00

如何解决《在nltk中打破/分解复杂和复合句子》经验，为你挑选了1个好方法。

有没有办法在nltk或其他自然语言处理库中将复杂句子分解为简单句子？

例如:

当太阳落山,凉风吹来时,公园真是太棒了==>太阳落山了.凉风吹来.公园太棒了.

1> Cerin..：

这比看起来要复杂得多,所以你不太可能找到一个非常干净的方法.

但是,在OpenNLP中使用英语解析器,我可以使用您的示例句子并获得以下语法树:

  (S
    (NP (DT The) (NN park))
    (VP
      (VBZ is)
      (ADJP (RB so) (JJ wonderful))
      (SBAR
        (WHADVP (WRB when))
        (S
          (S (NP (DT the) (NN sun)) (VP (VBZ is) (VP (VBG setting))))
          (CC and)
          (S
            (NP (DT a) (JJ cool) (NN breeze))
            (VP (VBZ is) (VP (VBG blowing)))))))
    (. .)))

从那里,你可以随意挑选它.您可以通过提取顶级(NP*)(VP*)减去(SBAR*)部分来获取子子句.然后你可以将(SBAR*)内的连接分成其他两个语句.

注意,使用Penn Treebank 语料库训练OpenNLP解析器.我在你的例句中获得了非常准确的解析,但解析器并不完美,在其他句子上可能会出现严重错误.在这里查看其标签的说明.它假设您已经对语言学和英语语法有了一些基本的了解.

编辑:顺便说一句,这是我从Python访问OpenNLP的方式.假设您在opennlp-tools-1.4.3文件夹中有OpenNLP jar和模型文件.

import os, sys
from subprocess import Popen, PIPE
import nltk

BP = os.path.dirname(os.path.abspath(__file__))
CP = "%(BP)s/opennlp-tools-1.4.3.jar:%(BP)s/opennlp-tools-1.4.3/lib/maxent-2.5.2.jar:%(BP)s/opennlp-tools-1.4.3/lib/jwnl-1.3.3.jar:%(BP)s/opennlp-tools-1.4.3/lib/trove.jar" % dict(BP=BP)
cmd = "java -cp %(CP)s -Xmx1024m opennlp.tools.lang.english.TreebankParser -k 1 -d %(BP)s/opennlp.models/english/parser" % dict(CP=CP, BP=BP)
p = Popen(cmd, shell=True, stdin=PIPE, stdout=PIPE, stderr=PIPE, close_fds=True)
stdin, stdout, stderr = (p.stdin, p.stdout, p.stderr)
text = "This is my sample sentence."
stdin.write('%s\n' % text)
ret = stdout.readline()
ret = ret.split(' ')
prob = float(ret[1])
tree = nltk.Tree.parse(' '.join(ret[2:]))

推荐阅读

程序员
附加多个div

如何解决《附加多个div》经验，为你挑选了1个好方法。 ... [详细]
程序员
RegEx匹配没有特定属性的<a> html标签

如何解决《RegEx匹配没有特定属性的<a>html标签》经验，为你挑选了1个好方法。 ... [详细]
程序员
怎么用m!在Perl正则表达式

如何解决《怎么用m!在Perl正则表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
返回值后删除指针

如何解决《返回值后删除指针》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android将DatePicker设置为特定日期

如何解决《Android将DatePicker设置为特定日期》经验，为你挑选了1个好方法。 ... [详细]
程序员
Three.js:网格没有接收阴影,并且没有被intersectObjects检测到

如何解决《Three.js:网格没有接收阴影,并且没有被intersectObjects检测到》经验，为你挑选了1个好方法。 ... [详细]
程序员
Objective C Idioms - 属性,ivars和needsDisplay

如何解决《ObjectiveCIdioms-属性,ivars和needsDisplay》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有像Xceed Real-Time Zip一样实时压缩的免费压缩工具？

如何解决《是否有像XceedReal-TimeZip一样实时压缩的免费压缩工具？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++编程谜语,功能指针很有趣

如何解决《C++编程谜语,功能指针很有趣》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell Parser组合器

如何解决《HaskellParser组合器》经验，为你挑选了0个好方法。 ... [详细]
程序员
R列出具有多个条件的文件

如何解决《R列出具有多个条件的文件》经验，为你挑选了2个好方法。 ... [详细]
程序员
如果陈述不适用于Lua

如何解决《如果陈述不适用于Lua》经验，为你挑选了1个好方法。 ... [详细]
程序员
NSFileManager列出目录内容,不包括目录

如何解决《NSFileManager列出目录内容,不包括目录》经验，为你挑选了2个好方法。 ... [详细]
程序员
Elasticsearch upserting并附加到数组

如何解决《Elasticsearchupserting并附加到数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
找到Person的最后一条记录

如何解决《找到Person的最后一条记录》经验，为你挑选了1个好方法。 ... [详细]
程序员
红色,绿色,重构:每个测试用例后重构,还是整个测试套件充实？

如何解决《红色,绿色,重构:每个测试用例后重构,还是整个测试套件充实？》经验，为你挑选了1个好方法。 ... [详细]
程序员
JFrame:如何禁用窗口大小调整？

如何解决《JFrame:如何禁用窗口大小调整？》经验，为你挑选了7个好方法。 ... [详细]
程序员
如何更改amazon ec2中的实例类型

如何解决《如何更改amazonec2中的实例类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
有关XMPP的C2S和S2S连接类型是什么？

如何解决《有关XMPP的C2S和S2S连接类型是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP打印添加怪异的解释

如何解决《PHP打印添加怪异的解释》经验，为你挑选了1个好方法。 ... [详细]

谢谢巷议

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章