当前位置:  开发笔记 > 编程语言 > 正文

有关Stan行为举止的秘诀以及告诉我们什么?

如何解决《有关Stan行为举止的秘诀以及告诉我们什么?》经验,为你挑选了1个好方法。

如果这很重要,我正在使用Rstan。

Stan让我们以可变模式和采样模式运行,而可变模式要快得多。我的问题是,变分Stan的行为是否可以提供有关我们模型的任何线索。

变异模式具有几种行为,我想知道它们是否可以提供线索,说明我们的模型有不正确的地方,甚至有什么不正确的地方。例如:

    在eta自适应过程中,我们可能会出错。

    通常在任何迭代之前,但有时在后续迭代期间,我们可能会在梯度上升期间出现错误。

    我们可以在梯度上升中产生差异-即,增量ELBO平均值会爆炸。

    我们可以让增量ELBO均值/中位数增加到高于初始1.0,然后降低直到收敛。

    ELBO均值/中位数的增量从1.0开始减少,但需要进行更多或更少的迭代。

    我们可以让德尔塔ELBO平均值或中位数或两者都收敛(即低于0.01)。

我在考虑经验法则。例如,在进行采样时,如果我有一个合理大小的数据集和一个相当简单的模型,但是采样花费的时间不合理,那么我的第一个想法就是检查先验条件。当我将优先级保留为默认值(平坦,不正确的优先级)时,我已经看到了这种行为,并且通常通过将模糊的优先级放在事物上来解决此问题,以使采样器远离样本空间中难以置信的部分。

任何人都有关于均值场模式的经验法则或见解-既有其自身的优势,又有可能与采样有何关系?



1> Ben Goodrich..:

我认为可以肯定地说,我们对MCMC的诊断要比对变化型贝叶斯的诊断更远。Stan中的VB算法试图在无约束空间中找到最接近参数后验分布的多元正态分布。这可能会失败,或者是因为实际上没有通过迭代算法找到与后验分布最接近的多元正态分布,或者是因为不受约束的空间中的后验分布没有很好地由多元正态近似。

一条经验法则是您应该多次运行VB。在我看来,第二个经验法则是,Stan将从近似多变量正态的后验分布中非常有效地进行采样。因此,如果MCMC速度慢,则可能是您有数百万个数据点,或者后验分布不是近似于多元正态(或两者都)。在前一种情况下,VB可能更可取,但在后一种情况下,VB则不太可能。

我们在示例模型的集合中对VB进行了很好的评估。生成良好的预测似乎比恢复参数更好(使用后验均值和标准差构造VB估计的z分数)。在没有比例参数的模型上,似乎做得更好。

特别是对于均值变量-试图找到最接近后验的不相关多元正态分布-几乎要求您进行大量重新参数化以使参数在后验分布中的相关性降低。这就是rstanarm建议QR = TRUE为均值场(以及其他估计算法)指定自变量的原因之一,该方法通过将预测变量与QR分解正交,然后在获得绘图后对变换进行求逆,从而降低系数的后验相关性。

推荐阅读
手机用户2402851335
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有