我正在使用朴素贝叶斯进行文本分类机器学习问题.我把每个单词都作为一个功能.我已经能够实现它,并且我的准确性很高.
我可以使用单词元组作为特征吗?
例如,如果有两个类,政治和体育.政府这个词可能出现在他们两个人身上.然而,在政治上我可以有一个元组(政府,民主),而在课堂体育中我可以有一个元组(政府,运动员).因此,如果一篇新的文章出现在政治中,那么元组(政府,民主)的概率比元组(政府,运动员)更具概率.
我问这是因为这样做是因为我违反了Naive Bayes问题的独立性假设,因为我也在考虑将单个单词作为特征.
另外,我正在考虑为功能添加权重.例如,3元组功能的重量将小于4元组功能.
从理论上讲,这两种方法是否都没有改变Naive Bayes分类器的独立性假设?此外,我还没有开始我提到的方法,但这会提高准确性吗?我认为准确性可能不会提高,但获得相同精度所需的训练数据量会更少.
即使没有添加bigrams,真正的文档也已经违反了独立性假设.以将奥巴马纳入文件为条件,总统更有可能出现.尽管如此,天真的贝叶斯在分类方面仍然做得不错,即使它给出的概率估计是绝望的.因此,我建议您继续为分类器添加更复杂的功能,看看它们是否能提高准确性.
如果使用较少的数据获得相同的准确度,这基本上相当于使用相同数量的数据获得更高的准确性.
另一方面,使用更简单,更常见的功能可以更好地减少数据量.如果您尝试将太多参数放在太少的数据上,那么您往往会过度配合.
但最重要的是尝试并看到.