17赞

当使用nltk对单词进行标记时,防止在叛逆者处分裂

作者：无名有名我无名_593 | 2023-09-07 19:56

如何解决《当使用nltk对单词进行标记时,防止在叛逆者处分裂》经验，为你挑选了1个好方法。

我正在使用将nltk句子分成单词.例如

 nltk.word_tokenize("The code didn't work!")
 -> ['The', 'code', 'did', "n't", 'work', '!']

标记化可以很好地分割单词边界[即从单词中分割标点符号],但有时会过度分割,单词末尾的修饰符会被视为单独的部分.例如,didn't被拆分为部分did,n't并i've被拆分为I和've.显然,这是因为这些单词在nltk正在使用的原始语料库中被分成两部分,并且在某些情况下可能是期望的.

有没有内置的方法来克服这种行为？可能以类似的方式将nltk's MWETokenizer多个单词聚合为短语,但在这种情况下,只是将单词组件聚合为单词.

或者,是否有另一个不会分割单词部分的标记器？

1> alecxe..：

这实际上按预期工作:

这是正确/预期的输出.对于单词标记化,收缩被认为是两个单词,因为它们具有意义.

不同的nltk标记器以不同方式处理英语语言收缩.例如,我发现TweetTokenizer不会将收缩分为两部分:

>>> from nltk.tokenize import TweetTokenizer
>>> tknzr = TweetTokenizer()
>>> tknzr.tokenize("The code didn't work!")
[u'The', u'code', u"didn't", u'work', u'!']

请在以下位置查看更多信息和解决方法:

nltk标记化和收缩

扩展Python中的英语语言收缩

word_tokenizer将收缩(我们,我会)分成不同的词

推荐阅读

程序员
从Python NLTK调用斯坦福NER崩溃

如何解决《从PythonNLTK调用斯坦福NER崩溃》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使$ q等待多个异步任务？

如何解决《如何使$q等待多个异步任务？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Dockerfile:将RUN指令输出到变量中

如何解决《Dockerfile:将RUN指令输出到变量中》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用node.js child_process调用python脚本

如何解决《使用node.jschild_process调用python脚本》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pyspark RDD首先收集163排

如何解决《PysparkRDD首先收集163排》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android蓝牙低功耗代码兼容API> = 21 AND API <21

如何解决《Android蓝牙低功耗代码兼容API>=21ANDAPI<21》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在python中获取SQL查询的表列名/标题

如何解决《如何在python中获取SQL查询的表列名/标题》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Python的scikit-learn中访问树深度？

如何解决《如何在Python的scikit-learn中访问树深度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linq反向字符串c#

如何解决《Linq反向字符串c#》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何匹配Rust宏中表达式的类型？

如何解决《如何匹配Rust宏中表达式的类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python:只保留字符串中的字母

如何解决《Python:只保留字符串中的字母》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在石墨/ grafana中查询"all but one"

如何解决《如何在石墨/grafana中查询"allbutone"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果bool数组中的所有元素都为真？

如何解决《如果bool数组中的所有元素都为真？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何删除字符串末尾的换行符？

如何解决《如何删除字符串末尾的换行符？》经验，为你挑选了1个好方法。 ... [详细]
程序员
XPages REST服务和外部系统身份验证

如何解决《XPagesREST服务和外部系统身份验证》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么redux建议只连接到顶级组件？

如何解决《为什么redux建议只连接到顶级组件？》经验，为你挑选了2个好方法。 ... [详细]
程序员
php -l:抑制有效文件的输出

如何解决《php-l:抑制有效文件的输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以将ionic serve设置为默认不打开浏览器吗？

如何解决《我可以将ionicserve设置为默认不打开浏览器吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
是否可以将perror()生成的消息发送到/ var/log/syslog？

如何解决《是否可以将perror()生成的消息发送到/var/log/syslog？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django:自定义用户模型的返回字段

如何解决《Django:自定义用户模型的返回字段》经验，为你挑选了2个好方法。 ... [详细]

无名有名我无名_593

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章