我有兴趣了解更多关于自然语言处理(NLP)的信息,如果目前有任何策略可以识别不基于字典识别的文本中的专有名词,我很感兴趣吗?此外,任何人都可以解释或链接到解释当前基于字典的方法的资源吗?谁是NLP的权威专家或该主题的权威资源是什么?
确定文本中单词的正确词性的任务称为词性标注.在布瑞尔标记器,例如,使用的词典(词汇)的单词和上下文规则的混合物.我相信这个任务的一些重要的初始词典单词是停用词.一旦你的话语(大部分是正确的)词性,你就可以开始构建更大的结构.这本面向行业的书区分了识别名词短语(NP)和识别命名实体.关于教科书:艾伦的自然语言理解是一本很好的,但有点过时的书.统计自然语言处理的基础是统计NLP的一个很好的介绍.语音和语言处理更加严谨,可能更具权威性.计算语言学协会是计算语言学领域的领先科学界.
除了基于字典的方法之外,我还想到了另外两个方法:
基于模式的方法(以简单的形式:大写的任何东西都是专有名词)
机器学习方法(在训练语料库中标记专有名词并训练分类器)
该字段主要称为命名实体提取,通常被视为信息提取的子字段.NLP不同领域的一个良好起点通常是牛津计算语言学手册的相应章节:
牛津计算语言学手册http://ukcatalogue.oup.com/images/en_US/covers/medium/9780198238829_140.jpg