在自然语言处理中,分块的目的是什么?
分块也称为浅层分析,它基本上是识别词性和短语(如名词短语). 词性标注会告诉您单词是名词,动词,形容词等,但它并没有给出任何关于句子中句子或短语结构的线索.有时获取更多信息而不仅仅是单词的词性是有用的,但是您不需要从解析中获得的完整解析树.
可能更喜欢分块的一个例子是命名实体识别.在NER中,你的目标是找到命名实体,这些实体往往是名词短语(虽然并非总是如此),所以你想知道总统巴拉克奥巴马在下面的句子中:
美国总统巴拉克•奥巴马(Barack Obama)批评保险公司和银行,因为他敦促支持者向国会施压,要求国会支持改革医疗体系和改革金融监管的举措.(来源)
但你不一定会关心他是句子的主语.
Chunking也被广泛用作其他任务的预处理步骤,例如基于示例的机器翻译,自然语言理解,语音生成等.
对于自然语言处理中的"文本分块",请参阅此处(您可能希望本系列中的所有讲座都是一种"NLP 101"......):它涵盖了一系列任务,例如查找名词组,查找动词组,并完成分区句子 - >几种类型的块.我引用其URL的讲座详细介绍!