我正在尝试通过将句子分成较小的部分来实现可以确定句子含义的应用程序.所以我需要知道哪些单词是主题,对象等,以便我的程序可以知道如何处理这句话.
这是一个开放的研究问题.您可以在维基百科上查看概述,http://en.wikipedia.org/wiki/Natural_language_processing.考虑像"时间过得像箭一样,果蝇像香蕉"这样的短语 - 毫不含糊地分类单词并不容易.
你应该看看自然语言工具包,它就是这种东西.
请参阅手册的这一部分:分类和标记单词 - 这是一个摘录:
>>> text = nltk.word_tokenize("And now for something completely different") >>> nltk.pos_tag(text) [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]
"在这里我们看到,和是CC,协调配合; 现在和完全是RB,或副词; 对于是IN,介词; 什么是神经网络,一个名词;而不同的是JJ,一个形容词."