我有一个软件项目的要求列表,由其前身的遗体组装而成.每个要求应映射到一个或多个类别.每个类别都包含一组关键字.我想要做的是找到一个算法,它会给我一个分数排名,每个要求可能属于哪个类别.结果将用作进一步分类要求的起点.
举个例子,假设我有这个要求:
系统应将存款应用于客户的指定帐户.
和类别/关键字:
客户交易:存款,存款,客户,账户,账户
余额账户:账户,账户,借方,贷方
其他类别:foo,bar
我希望算法在类别1中得分最高,在类别2中得分较低,而在类别3中得不到.评分机制与我无关,但需要表达的类别1比第2类更有可能.
我是NLP的新手,所以我有点不知所措.我一直在阅读Python中的自然语言处理,并希望应用一些概念,但没有看到任何非常适合的东西.我认为简单的频率分布不会起作用,因为我正在处理的文本很小(一个句子).