当前位置:  开发笔记 > 编程语言 > 正文

用于标记英文文本的正则表达式

如何解决《用于标记英文文本的正则表达式》经验,为你挑选了1个好方法。

标记英文文本的最佳正则表达式是什么?

通过英文标记,我的意思是一个由最大数量的字符组成的原子,可以有意义地用于NLP目的.类比是任何编程语言中的"标记"(例如,在C中,'{','[','hello','&'等可以是标记).有一个限制:虽然英文标点字符可以是"有意义的",但为了简单起见,当它们没有出现在\ w +的中间时,让我们忽略它们.所以,"你好,世界." 收益'你好'和'世界'; 同样地,"你很好看." 可能会产生[你,是,好看]或[你,好,好看].



1> dmcer..:

树库标记化

Penn Treebank(PTB)标记化是用于自然语言处理(NLP)工作的相当常见的标记化方案.

您可以在此处找到带有相应正则表达式的sed脚本以获取此标记.

软件包

但是,大多数NLP包提供了随时可用的标记化程序,因此您不需要编写自己的标记生成器.例如,如果你正在使用Python,你可以只使用TreebankWordTokenizer提供NLTK.如果您使用的是基于Java的Stanford Parser,它将默认使用其edu.stanford.nlp.processor.PTBTokenizer对您提供的任何句子进行标记.

推荐阅读
牛尾巴2010
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有