潜在的Dirichlet分配,陷阱,提示和程序

作者：yzh148448 | 2023-09-04 11:15

如何解决《潜在的Dirichlet分配,陷阱,提示和程序》经验，为你挑选了2个好方法。

我正在尝试使用Latent Dirichlet Allocation主题消除歧义和分配,我正在寻找建议.

哪个程序是"最好的",最好的是最容易使用,最佳先验估计,快速的组合

我如何结合我对话题性的直觉.假设我想我知道语料库中的某些项目实际上属于同一类别,就像同一作者的所有文章一样.我可以将其添加到分析中吗？

在登船之前我应该知道任何意想不到的陷阱或提示？

我更喜欢任何程序都有R或Python前端,但我希望(并接受)我将与C打交道.

1> Aditya Mukhe..：

http://mallet.cs.umass.edu/是IMHO最强大的即插即用LDA软件包..它使用Gibbs采样来估计主题,并且有一个非常简单的命令行界面,有很多额外的铃声-n-Whistles(一些更复杂的模型,超参数优化等)

最好让算法完成它的工作.可能存在LDA(和pLSI等)的变体,它们可以让你做一些半监督的事情......我现在还不知道.

我发现删除停止词和其他真正的高频词似乎提高了我的主题的质量(通过查看每个主题的顶部词,而不是任何严格的度量评估)..我猜词干/词形还原会有所帮助好.

2> Ben..：

你提到了R的偏好,你可以使用两个包topicmodels(慢)或lda(快).Python有deltaLDA,pyLDA,Gensim等.

使用指定主题或单词进行主题建模是非常棘手的,David Andrzejewski有一些似乎可以做到的Python代码.有一个C++实现监督LDA的位置.关于相关方法的大量论文(DiscLDA,Labeled LDA,但不是一个易于使用的形式,对我来说无论如何......

正如@ adi92所说,删除停用词,空格,数字,标点符号和词干都会改进很多东西.一个可能的缺陷是错误(或不适当)的主题数量.目前,对于给定大小的coprus等,有多少主题是最佳的,没有直接的诊断.MALLET (最快)有一些主题质量的测量,非常方便.

推荐阅读

程序员
我们可以使用flyway在多个数据库上并行部署sql代码

如何解决《我们可以使用flyway在多个数据库上并行部署sql代码》经验，为你挑选了1个好方法。 ... [详细]
程序员
REST API是否应该反映服务器端应用程序体系结构

如何解决《RESTAPI是否应该反映服务器端应用程序体系结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
单选按钮组在yii2中的单独位置

如何解决《单选按钮组在yii2中的单独位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
AWS Lambda热门和冷启动

如何解决《AWSLambda热门和冷启动》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Loopback中使用Application模型

如何解决《在Loopback中使用Application模型》经验，为你挑选了1个好方法。 ... [详细]
程序员
homebrew vim 7.4退格在OSX 10.10.5上不起作用

如何解决《homebrewvim7.4退格在OSX10.10.5上不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在cakephp 3中手动进行密码散列？

如何解决《如何在cakephp3中手动进行密码散列？》经验，为你挑选了1个好方法。 ... [详细]
程序员
android studio adb语法错误:")"意外

如何解决《androidstudioadb语法错误:")"意外》经验，为你挑选了2个好方法。 ... [详细]
程序员
泰勒系列扩展为constexpr

如何解决《泰勒系列扩展为constexpr》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在pyspark中查看RDD中每个分区的内容？

如何解决《如何在pyspark中查看RDD中每个分区的内容？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spark:回归模型阈值和精度

如何解决《Spark:回归模型阈值和精度》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python split()String包含空格的列表

如何解决《Pythonsplit()String包含空格的列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
Cmake不适用于Maverick上的openMP

如何解决《Cmake不适用于Maverick上的openMP》经验，为你挑选了0个好方法。 ... [详细]
程序员
将stdout传递给Perl时,如何让它打印换行符？

如何解决《将stdout传递给Perl时,如何让它打印换行符？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio Gradle Error BuildActionExecuter.withCancellationToken

如何解决《AndroidStudioGradleErrorBuildActionExecuter.withCancellationToken》经验，为你挑选了1个好方法。 ... [详细]
程序员
Chrome中的这个Jquery Ajax请求有什么问题？

如何解决《Chrome中的这个JqueryAjax请求有什么问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
键入Ctrl-D(EOF)时如何防止iterm2关闭

如何解决《键入Ctrl-D(EOF)时如何防止iterm2关闭》经验，为你挑选了1个好方法。 ... [详细]
程序员
崇高按键"逃脱"无法输入任何内容

如何解决《崇高按键"逃脱"无法输入任何内容》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android - Gridlayout和Staggered Gridlayout之间的区别

如何解决《Android-Gridlayout和StaggeredGridlayout之间的区别》经验，为你挑选了2个好方法。 ... [详细]
程序员
解释目标C保留循环与现实世界的例子？

如何解决《解释目标C保留循环与现实世界的例子？》经验，为你挑选了1个好方法。 ... [详细]

yzh148448

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章