我正在大学里学习一门名为"智能机器"的课程.我们介绍了3种强化学习方法,并且我们给出了直接使用它们的直觉,并引用:
Q-Learning - 无法解决MDP的最佳选择.
时间差异学习 - 当MDP已知或可以学习但无法解决时最佳.
基于模型 - 在无法学习MDP时最佳.
是否有任何好的例子说明何时选择一种方法而不是另一种方法?
时间差异是一种学习如何预测取决于给定信号的未来值的数量的方法.它可用于学习V函数和Q函数,而Q学习是用于学习Q函数的特定TD算法.正如Don Reba所述,您需要Q函数来执行操作(例如,遵循epsilon-greedy策略).如果你只有V函数,你仍然可以通过遍历所有可能的下一个状态并选择导致你进入具有最高V值的状态的动作来推导出Q函数.有关示例和更多见解,我推荐Sutton和Barto的经典书籍.
在无模型 RL中,您不会学习状态转换函数(模型),您只能依赖于样本.但是,您可能也对学习它感兴趣,例如因为您无法收集许多样本并希望生成一些虚拟样本.在这种情况下,我们谈论基于模型的 RL.基于模型的RL在机器人技术中非常普遍,在这种情况下,您无法执行许多真实的模拟,或者机器人会破坏.这是一个很好的调查,有许多例子(但它只涉及政策搜索算法).再举一个例子来看看这篇论文.在这里,作者学习 - 以及策略 - 高斯过程来近似机器人的正演模型,以模拟轨迹并减少真实机器人交互的数量.