4赞

如何使用nltk正则表达式模式来提取特定的短语块？

作者：ifx0448363 | 2023-09-11 09:38

如何解决《如何使用nltk正则表达式模式来提取特定的短语块？》经验，为你挑选了1个好方法。

我写了以下正则表达式来标记某些短语模式

pattern = """
        P2: {+ ? * + * *}
        P1: {? + ? * ? * +}
        P3: {}
        P4: {}

    """

此模式将正确标记短语,例如:

a = 'The pizza was good but pasta was bad'

并提供2个短语的所需输出:

披萨很好吃

面食很糟糕

但是,如果我的句子是这样的:

a = 'The pizza was awesome and brilliant'

仅匹配短语:

'pizza was awesome'

而不是所期望的:

'pizza was awesome and brilliant'

如何在我的第二个例子中加入正则表达式模式？

1> alvas..：

首先,让我们来看看NLTK给出的POS标签:

>>> from nltk import pos_tag
>>> sent = 'The pizza was awesome and brilliant'.split()
>>> pos_tag(sent)
[('The', 'DT'), ('pizza', 'NN'), ('was', 'VBD'), ('awesome', 'JJ'), ('and', 'CC'), ('brilliant', 'JJ')]
>>> sent = 'The pizza was good but pasta was bad'.split()
>>> pos_tag(sent)
[('The', 'DT'), ('pizza', 'NN'), ('was', 'VBD'), ('good', 'JJ'), ('but', 'CC'), ('pasta', 'NN'), ('was', 'VBD'), ('bad', 'JJ')]

(注意:以上是NLTK v3.1的输出pos_tag,旧版本可能不同)

您想要捕获的内容基本上是:

NN VBD JJ CC JJ

NN VBD JJ

所以让我们用这些模式捕捉它们:

>>> from nltk import RegexpParser
>>> sent1 = ['The', 'pizza', 'was', 'awesome', 'and', 'brilliant']
>>> sent2 = ['The', 'pizza', 'was', 'good', 'but', 'pasta', 'was', 'bad']
>>> patterns = """
... P: {}
... {}
... """
>>> PChunker = RegexpParser(patterns)
>>> PChunker.parse(pos_tag(sent1))
Tree('S', [('The', 'DT'), Tree('P', [('pizza', 'NN'), ('was', 'VBD'), ('awesome', 'JJ'), ('and', 'CC'), ('brilliant', 'JJ')])])
>>> PChunker.parse(pos_tag(sent2))
Tree('S', [('The', 'DT'), Tree('P', [('pizza', 'NN'), ('was', 'VBD'), ('good', 'JJ')]), ('but', 'CC'), Tree('P', [('pasta', 'NN'), ('was', 'VBD'), ('bad', 'JJ')])])

这就是硬编码的"欺骗"!

让我们回到POS模式:

NN VBD JJ CC JJ

NN VBD JJ

可以简化为:

NN VBD JJ(CC JJ)

所以你可以在正则表达式中使用可选的运算符,例如:

>>> patterns = """
... P: {()?}
... """
>>> PChunker = RegexpParser(patterns)
>>> PChunker.parse(pos_tag(sent1))
Tree('S', [('The', 'DT'), Tree('P', [('pizza', 'NN'), ('was', 'VBD'), ('awesome', 'JJ'), ('and', 'CC'), ('brilliant', 'JJ')])])
>>> PChunker.parse(pos_tag(sent2))
Tree('S', [('The', 'DT'), Tree('P', [('pizza', 'NN'), ('was', 'VBD'), ('good', 'JJ')]), ('but', 'CC'), Tree('P', [('pasta', 'NN'), ('was', 'VBD'), ('bad', 'JJ')])])

很可能你正在使用旧的标记器,这就是为什么你的模式不同但我猜你看到如何使用上面的例子捕获你需要的短语.

步骤是:

首先,检查使用的POS模式是什么 pos_tag

然后概括模式并简化它们

然后把它们放入 RegexpParser

推荐阅读

程序员
在基本模板中向<body>添加类的DRY方法？

如何解决《在基本模板中向<body>添加类的DRY方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从整数序列构造String实例？

如何解决《如何从整数序列构造String实例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
GraphQL Schema处理混合类型

如何解决《GraphQLSchema处理混合类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
日期上的dplyr过滤器

如何解决《日期上的dplyr过滤器》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将Azure Search的@ search.score作为自定义$ orderby子句的一部分

如何解决《如何将AzureSearch的@search.score作为自定义$orderby子句的一部分》经验，为你挑选了1个好方法。 ... [详细]
程序员
奥尔良集群沟通

如何解决《奥尔良集群沟通》经验，为你挑选了1个好方法。 ... [详细]
程序员
锚点href与角度路线链接

如何解决《锚点href与角度路线链接》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Objective-c中使用SafariViewController？

如何解决《如何在Objective-c中使用SafariViewController？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在bash for循环中内联一个字符串数组？

如何解决《如何在bashfor循环中内联一个字符串数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
R返回行名称的部分匹配

如何解决《R返回行名称的部分匹配》经验，为你挑选了0个好方法。 ... [详细]
程序员
Pandas Plot,如何控制条宽和间隙

如何解决《PandasPlot,如何控制条宽和间隙》经验，为你挑选了1个好方法。 ... [详细]
程序员
匈牙利算法具有不等数量的工人和任务

如何解决《匈牙利算法具有不等数量的工人和任务》经验，为你挑选了0个好方法。 ... [详细]
程序员
返回CompletableFuture <Void>或CompletableFuture <？>？

如何解决《返回CompletableFuture<Void>或CompletableFuture<？>？》经验，为你挑选了4个好方法。 ... [详细]
程序员
EasyMock中的".andReturn(...).anyTimes()"和".andStubReturn(...)"之间有什么区别吗？

如何解决《EasyMock中的".andReturn().anyTimes()"和".andStubReturn()"之间有什么区别吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在任何画布形状周围绘制外边框和内边框

如何解决《在任何画布形状周围绘制外边框和内边框》经验，为你挑选了1个好方法。 ... [详细]
程序员
带有textMultiLine的EditText不起作用

如何解决《带有textMultiLine的EditText不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
寻找在ISS-UI AATS 2016站点上使用的示例IRS AIR XML文件

如何解决《寻找在ISS-UIAATS2016站点上使用的示例IRSAIRXML文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何正确找到Heisenbug？

如何解决《如何正确找到Heisenbug？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何读取用R加密的.xls文件？

如何解决《如何读取用R加密的.xls文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我在哪里可以找到Box API的企业ID？

如何解决《我在哪里可以找到BoxAPI的企业ID？》经验，为你挑选了1个好方法。 ... [详细]

ifx0448363

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章