20赞

主题建模 - 将具有前2个主题的文档指定为类别标签 - sklearn Latent Dirichlet Allocation

作者：贾志军 | 2023-09-09 13:44

如何解决《主题建模-将具有前2个主题的文档指定为类别标签-sklearnLatentDirichletAllocation》经验，为你挑选了1个好方法。

我现在正在通过LDA(Latent Dirichlet Allocation)主题建模方法来帮助从一组文档中提取主题.从我从下面的链接中理解的,这是一种无监督的学习方法,用提取的主题对每个文档进行分类/标记.

非负矩阵分解和潜在Dirichlet分配的主题提取

在该链接中给出的示例代码中,定义了一个函数来获取与所识别的每个主题相关联的顶部单词.

sklearn.__version__

出[41]:'0.17'

from sklearn.decomposition import LatentDirichletAllocation 


def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()

print("\nTopics in LDA model:")
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

我的问题是这个.是否有构建模型LDA的任何组件或矩阵,我们可以从哪里获得文档主题关联？

例如,我需要找到与每个文档关联的前2个主题作为该文档的文档标签/类别.是否有任何组件可以在文档中查找主题分布,类似于在主题中 model.components_查找单词分布.

1> 小智..：

您可以使用LDA类的transform(X)函数计算文档主题关联.

在示例代码中,这将是:

doc_topic_distrib = lda.transform(tf)

与lda相匹配的lda,以及你想要转换的输入数据

推荐阅读

程序员
RxJava:丢弃物品？- 背压

如何解决《RxJava:丢弃物品？-背压》经验，为你挑选了1个好方法。 ... [详细]
程序员
自定义控件变为通用"UserControl",而不是Designer类中的实际类型

如何解决《自定义控件变为通用"UserControl",而不是Designer类中的实际类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
C#到VB.Net转换,RaiseEvent麻烦

如何解决《C#到VB.Net转换,RaiseEvent麻烦》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP按钮href不起作用

如何解决《PHP按钮href不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何提高Postgres select语句的速度？

如何解决《如何提高Postgresselect语句的速度？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用TensorFlow获得稳定的结果

如何解决《使用TensorFlow获得稳定的结果》经验，为你挑选了1个好方法。 ... [详细]
程序员
python:构造函数参数表示法

如何解决《python:构造函数参数表示法》经验，为你挑选了0个好方法。 ... [详细]
程序员
Chrome渲染带有垂直垂直线的MathJax方程式

如何解决《Chrome渲染带有垂直垂直线的MathJax方程式》经验，为你挑选了2个好方法。 ... [详细]
程序员
是否有可能在android上的各个过渡区设置转换速度/时间

如何解决《是否有可能在android上的各个过渡区设置转换速度/时间》经验，为你挑选了1个好方法。 ... [详细]
程序员
"将git branch重命名为master"和"使用-s our option将master分支到master"有什么区别？

如何解决《"将gitbranch重命名为master"和"使用-souroption将master分支到master"有什么区别？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift包管理器可以编译并包含C库吗？

如何解决《Swift包管理器可以编译并包含C库吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用AsyncTask时应该如何处理HTTP响应代码？

如何解决《使用AsyncTask时应该如何处理HTTP响应代码？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在单元测试中等待Alamofire

如何解决《在单元测试中等待Alamofire》经验，为你挑选了1个好方法。 ... [详细]
程序员
试图调用函数"iconv_strlen"

如何解决《试图调用函数"iconv_strlen"》经验，为你挑选了1个好方法。 ... [详细]
程序员
关于map :: erase和map :: count

如何解决《关于map::erase和map::count》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Mercurial存储库中查找大文件

如何解决《在Mercurial存储库中查找大文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
我如何初始化新版本的crashlytics？

如何解决《我如何初始化新版本的crashlytics？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Meteor:如何对简单的todos演示进行分页？

如何解决《Meteor:如何对简单的todos演示进行分页？》经验，为你挑选了0个好方法。 ... [详细]
程序员
线程池大小应远大于核心数+ 1

如何解决《线程池大小应远大于核心数+1》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用多个替代值创建蒙版(Pandas DataFrame)

如何解决《如何使用多个替代值创建蒙版(PandasDataFrame)》经验，为你挑选了1个好方法。 ... [详细]

贾志军

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章