当前位置:  开发笔记 > 编程语言 > 正文

仅保留特定于域的关键字?

如何解决《仅保留特定于域的关键字?》经验,为你挑选了1个好方法。

我正在尝试确定我的收藏中某些类文档最受欢迎的关键字.假设域是"计算机科学"(当然,包括网络,计算机体系结构等),从文本中保留这些特定于域的关键字的最佳方法是什么?我尝试使用Wordnet但我不太清楚如何最好地使用它来提取这些信息.

考虑到事先我不知道所有特定于域的关键字这一事实,我是否可以使用任何众所周知的单词列表作为白名单?或者是否有任何良好的nlp /机器学习技术来识别特定领域的关键字?



1> Andrey Sboev..:

你需要一套庞大的训练文件.此集合的小子集(但仍然是大型文档集)应代表给定的域.使用nltk计算单词统计数据,考虑形态,过滤掉停用词.好的统计数据是TF*IDF,其大致是域子集中单词的多个事件除以包含整个集合中的单词的文档的数量.关键字是具有最大TF*IDF的单词.

推荐阅读
凹凸曼00威威_694
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有