假设我想根据哪些标签存在或不存在来确定我将在SO上提出问题的可能性.
让我们想象一下,我有很多关于我过去或过去没有投票的问题的数据.
是否有机器学习算法可以获取这些历史数据,对其进行训练,然后能够预测我未来问题的推荐概率?请注意,它必须是概率,而不仅仅是一些任意分数.
让我们假设最多有7个标签与任何给定的问题相关联,这些标签是从成千上万的超集中提取的.
我希望它能够在标签之间建立非常复杂的连接,而不是每个标签只是以"线性"方式对最终结果做出贡献(就像贝叶斯垃圾邮件过滤器中的单词一样).
因此,例如,可能是"java"这个词增加了我的upvote概率,除非它与"数据库"一起出现,但是"数据库"可能会增加我的"红宝石"时出现的upvote概率.
哦,它应该是计算上合理的(在数百万个问题上训练一两个小时).
我应该在这里研究什么方法?