标记英文文本的最佳正则表达式是什么?
通过英文标记,我的意思是一个由最大数量的字符组成的原子,可以有意义地用于NLP目的.类比是任何编程语言中的"标记"(例如,在C中,'{','[','hello','&'等可以是标记).有一个限制:虽然英文标点字符可以是"有意义的",但为了简单起见,当它们没有出现在\ w +的中间时,让我们忽略它们.所以,"你好,世界." 收益'你好'和'世界'; 同样地,"你很好看." 可能会产生[你,是,好看]或[你,好,好看].
树库标记化
Penn Treebank(PTB)标记化是用于自然语言处理(NLP)工作的相当常见的标记化方案.
您可以在此处找到带有相应正则表达式的sed脚本以获取此标记.
软件包
但是,大多数NLP包提供了随时可用的标记化程序,因此您不需要编写自己的标记生成器.例如,如果你正在使用Python,你可以只使用TreebankWordTokenizer提供NLTK.如果您使用的是基于Java的Stanford Parser,它将默认使用其edu.stanford.nlp.processor.PTBTokenizer对您提供的任何句子进行标记.