我是隐藏马尔可夫模型的新手,为了试验它,我在Python 的hmmlearn包的帮助下,基于对携带或不携带雨伞的人的观察来研究阳光/雨天/有雾天气的情景.我的测试中使用的数据来自此页面("测试1" 的测试和输出文件).
我创建了下面提供的简单代码,以便从测试数据中拟合无监督的HMM,然后将预测与预期输出进行比较.结果似乎相当不错(10个正确预测中的7个).
我的问题是:我怎么知道模型处理的隐藏状态到问题域中的真实状态的映射?(换句话说,如何将响应与我的问题域的所需状态联系起来?)
这可能是一个非常天真的问题,但是如果模型受到监督,我会理解,在为拟合方法提供Y值时,我给出了映射...但我无法弄清楚它在这种情况下是如何工作的.
码:
import numpy as np from hmmlearn import hmm # Load the data from a CSV file data = np.genfromtxt('training-data.csv', skip_header=1, delimiter=',', dtype=str) # Hot encode the 'yes' and 'no' categories of the observation # (i.e. seeing or not an umbrella) x = np.array([[1, 0] if i == 'yes' else [0, 1] for i in data[:, 1]]) # Fit the HMM from the data expecting 3 hidden states (the weather on the day: # sunny, rainy or foggy) model = hmm.GaussianHMM(n_components=3, n_iter=100, verbose=True) model.fit(x, [len(x)]) # Test the model test = ['no', 'no', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'yes'] x_test = np.array([[1, 0] if i == 'yes' else [0, 1] for i in test]) y_test = ['foggy', 'foggy', 'foggy', 'rainy', 'sunny', 'foggy', 'rainy', 'rainy', 'foggy', 'rainy'] y_pred = model.predict(x_test) mp = {0: 'sunny', 1: 'rainy', 2: 'foggy'} # THIS IS MY ASSUMPTION print('\n\n\n') print('Expected:') print(y_test) print('Predicted:') print([mp[i] for i in y_pred])
结果:
Expected: ['foggy', 'foggy', 'foggy', 'rainy', 'sunny', 'foggy', 'rainy', 'rainy', 'foggy', 'rainy'] Predicted: ['foggy', 'foggy', 'sunny', 'rainy', 'foggy', 'sunny', 'rainy', 'rainy', 'foggy', 'rainy']
lejlot.. 13
我的问题是:我怎么知道模型处理的隐藏状态到问题域中的真实状态的映射?(换句话说,如何将响应与我的问题域的所需状态联系起来?)
基本上你不能.你能够手工制作这种映射(甚至它首先存在)的事实只是一个巧合,来自极端简单的问题.
HMM(在这样的学习场景中)试图找到最可能的(预定量)隐藏状态序列,但是像任何其他无监督学习一样,无法保证匹配手头的任务.考虑到约束条件(马尔可夫假设,隐藏状态的数量,提供的观察结果),它只是尽可能地模拟现实 - 它不会神奇地检测出人们所问的实际问题(如此处 - 天气序列),而只是尝试解决其自身的内部优化问题 - 这是最可能的任意定义的隐藏状态序列,因此在马尔可夫假设下(独立于旧历史),所提供的观察结果很可能出现.
一般来说,你将无法如此轻易地解释这些状态,这里的问题非常简单,仅仅根据上面列出的假设 - 这个(天气状态)几乎是最可能被建模的东西.在其他问题中 - 它可以捕获任何有意义的东西.
如前所述 - 这不是HMM属性,而是任何无监督的学习技术 - 当您对数据进行聚类时,您只需找到一些数据分区,这可能与您要查找的内容有某种关系 - 或者没有.同样在这里 - HMM会找到一些动力学模型,但它可能与你所追求的完全不同.如果你知道你在寻找什么 - 你应该使用有监督的学习,这就是它的定义.无监督学习是找到一些结构(这里是动态),而不是特定结构.
我的问题是:我怎么知道模型处理的隐藏状态到问题域中的真实状态的映射?(换句话说,如何将响应与我的问题域的所需状态联系起来?)
基本上你不能.你能够手工制作这种映射(甚至它首先存在)的事实只是一个巧合,来自极端简单的问题.
HMM(在这样的学习场景中)试图找到最可能的(预定量)隐藏状态序列,但是像任何其他无监督学习一样,无法保证匹配手头的任务.考虑到约束条件(马尔可夫假设,隐藏状态的数量,提供的观察结果),它只是尽可能地模拟现实 - 它不会神奇地检测出人们所问的实际问题(如此处 - 天气序列),而只是尝试解决其自身的内部优化问题 - 这是最可能的任意定义的隐藏状态序列,因此在马尔可夫假设下(独立于旧历史),所提供的观察结果很可能出现.
一般来说,你将无法如此轻易地解释这些状态,这里的问题非常简单,仅仅根据上面列出的假设 - 这个(天气状态)几乎是最可能被建模的东西.在其他问题中 - 它可以捕获任何有意义的东西.
如前所述 - 这不是HMM属性,而是任何无监督的学习技术 - 当您对数据进行聚类时,您只需找到一些数据分区,这可能与您要查找的内容有某种关系 - 或者没有.同样在这里 - HMM会找到一些动力学模型,但它可能与你所追求的完全不同.如果你知道你在寻找什么 - 你应该使用有监督的学习,这就是它的定义.无监督学习是找到一些结构(这里是动态),而不是特定结构.