我想在这里找一些专家指导,了解解决问题的最佳方法.我研究了一些机器学习,神经网络和类似的东西.我调查了weka,某种贝叶斯解决方案...... R ..几个不同的东西.不过,我不知道该怎么做.这是我的问题.
我已经或将要有大量的活动......最终大约有10万左右.每个事件由几个(30-50)个自变量和我关心的1个因变量组成.在确定因变量的值时,一些自变量比其他变量更重要.而且,这些事件与时间有关.今天发生的事情比10年前发生的事情更重要.
我希望能够为某种学习引擎提供一个事件,并让它预测因变量.然后,知道这个事件的因变量的真实答案(以及之前出现的所有事件),我希望能够训练后续的猜测.
一旦我了解了编程方向,我就可以进行研究并弄清楚如何将我的想法转化为代码.但我的背景是并行编程而不是这样的东西,所以我很乐意就此提出一些建议和指导.
谢谢!
编辑:这里有一些关于我试图解决的问题的更多细节:这是一个定价问题.让我们说我想要预测随机漫画书的价格.价格是我唯一关心的事情.但是有很多独立的变量可以提出来.它是超人漫画,还是Hello Kitty漫画.多大了?条件是什么?经过一段时间的训练后,我希望能够提供有关我可能正在考虑的漫画书的信息,并让它为漫画书给我一个合理的预期价值.好.所以漫画书可能是一个虚假的例子.但是你得到了一般的想法.到目前为止,从答案中,我正在对支持向量机和Naive Bayes进行一些研究.感谢您迄今为止的所有帮助.
听起来你是支持向量机的候选人.
去获取libsvm.阅读他们分发的"SVM分类的实用指南",并且很简短.
基本上,您将参加您的活动,并将其格式化为:
dv1 1:iv1_1 2:iv1_2 3:iv1_3 4:iv1_4 ... dv2 1:iv2_1 2:iv2_2 3:iv2_3 4:iv2_4 ...
通过他们的svm-scale实用程序运行它,然后使用他们的grid.py脚本来搜索适当的内核参数.学习算法应该能够找出变量的不同重要性,尽管你也可以加权.如果您认为时间有用,只需将时间添加为另一个独立变量(功能)供训练算法使用.
如果libsvm无法获得您想要的准确度,请考虑升级到SVMlight.只有这么难以处理,还有更多的选择.
Bishop的模式识别和机器学习可能是第一本关于libsvm和SVMlight实际上对您的数据做什么的详细信息的教科书.