我正在尝试确定我的收藏中某些类文档最受欢迎的关键字.假设域是"计算机科学"(当然,包括网络,计算机体系结构等),从文本中保留这些特定于域的关键字的最佳方法是什么?我尝试使用Wordnet但我不太清楚如何最好地使用它来提取这些信息.
考虑到事先我不知道所有特定于域的关键字这一事实,我是否可以使用任何众所周知的单词列表作为白名单?或者是否有任何良好的nlp /机器学习技术来识别特定领域的关键字?
你需要一套庞大的训练文件.此集合的小子集(但仍然是大型文档集)应代表给定的域.使用nltk计算单词统计数据,考虑形态,过滤掉停用词.好的统计数据是TF*IDF,其大致是域子集中单词的多个事件除以包含整个集合中的单词的文档的数量.关键字是具有最大TF*IDF的单词.