当前位置:  开发笔记 > 编程语言 > 正文

文本分类的随机森林模型

如何解决《文本分类的随机森林模型》经验,为你挑选了1个好方法。

我有文本数据集,我在其中手动将每个记录分类为两个可能的类之一.我在语料库上创建了一个TFIDF,没有英语停用词,训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库.到目前为止一切都很好,但是如何更多地了解我的模型,即如何找出哪些单词对模型"重要"?



1> Dthal..:

训练有素的RF应具有属性feature_importances_.我认为你必须用oob_score=True(在构造函数中)训练模型.功能重要性将告诉您哪些功能(数据矩阵列)具有影响力.要获得单词,请返回到tfidf向量化器并获取其vocabulary_属性(请注意尾随下划线),这是从单词到列索引的单词.

有关vocabulary_属性的说明,请参阅以下文章:sklearn:TFIDF Transformer:如何获取文档中给定单词的tf-idf值

推荐阅读
吻过彩虹的脸_378
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有