5赞

使用朴素贝叶斯进行文本分类

作者：贾志军 | 2023-06-16 17:02

如何解决《使用朴素贝叶斯进行文本分类》经验，为你挑选了1个好方法。

我正在使用朴素贝叶斯进行文本分类机器学习问题.我把每个单词都作为一个功能.我已经能够实现它,并且我的准确性很高.

我可以使用单词元组作为特征吗？

例如,如果有两个类,政治和体育.政府这个词可能出现在他们两个人身上.然而,在政治上我可以有一个元组(政府,民主),而在课堂体育中我可以有一个元组(政府,运动员).因此,如果一篇新的文章出现在政治中,那么元组(政府,民主)的概率比元组(政府,运动员)更具概率.

我问这是因为这样做是因为我违反了Naive Bayes问题的独立性假设,因为我也在考虑将单个单词作为特征.

另外,我正在考虑为功能添加权重.例如,3元组功能的重量将小于4元组功能.

从理论上讲,这两种方法是否都没有改变Naive Bayes分类器的独立性假设？此外,我还没有开始我提到的方法,但这会提高准确性吗？我认为准确性可能不会提高,但获得相同精度所需的训练数据量会更少.

1> Rob Neuhaus..：

即使没有添加bigrams,真正的文档也已经违反了独立性假设.以将奥巴马纳入文件为条件,总统更有可能出现.尽管如此,天真的贝叶斯在分类方面仍然做得不错,即使它给出的概率估计是绝望的.因此,我建议您继续为分类器添加更复杂的功能,看看它们是否能提高准确性.

如果使用较少的数据获得相同的准确度,这基本上相当于使用相同数量的数据获得更高的准确性.

另一方面,使用更简单,更常见的功能可以更好地减少数据量.如果您尝试将太多参数放在太少的数据上,那么您往往会过度配合.

但最重要的是尝试并看到.

推荐阅读

程序员
Google Play商店广告系列跟踪不适用于网络浏览器安装

如何解决《GooglePlay商店广告系列跟踪不适用于网络浏览器安装》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring-security甚至在提交表单之前就会显示"Bad Credentials"

如何解决《Spring-security甚至在提交表单之前就会显示"BadCredentials"》经验，为你挑选了1个好方法。 ... [详细]
程序员
异步方法中的Console.ReadLine没有阻止进展..？

如何解决《异步方法中的Console.ReadLine没有阻止进展..？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何处理与实时流媒体服务器连接的慢速消费者/客户端

如何解决《如何处理与实时流媒体服务器连接的慢速消费者/客户端》经验，为你挑选了0个好方法。 ... [详细]
程序员
在tsql查询中使用日期

如何解决《在tsql查询中使用日期》经验，为你挑选了1个好方法。 ... [详细]
程序员
在最后一个反斜杠后提取剩余字符串的函数

如何解决《在最后一个反斜杠后提取剩余字符串的函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
将一个DataFrame行转换为平面列表

如何解决《将一个DataFrame行转换为平面列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以保证交付AWS S3事件通知？

如何解决《是否可以保证交付AWSS3事件通知？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift错误:'&'与'UnsafeMutablePointer'类型的非inout参数一起使用

如何解决《Swift错误:'&'与'UnsafeMutablePointer'类型的非inout参数一起使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么设置一个dict浅拷贝到自己？

如何解决《为什么设置一个dict浅拷贝到自己？》经验，为你挑选了1个好方法。 ... [详细]
程序员
UML:最终状态

如何解决《UML:最终状态》经验，为你挑选了1个好方法。 ... [详细]
程序员
在二元分类中使用Lasso回归查找最佳特征

如何解决《在二元分类中使用Lasso回归查找最佳特征》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell vs. erlang:foldl的区别？

如何解决《Haskellvs.erlang:foldl的区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用c#windows form应用程序将excel文件上传到sql数据库表

如何解决《如何使用c#windowsform应用程序将excel文件上传到sql数据库表》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sublime文本语法着色报价问题

如何解决《Sublime文本语法着色报价问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在android studio中创建一个sdk

如何解决《如何在androidstudio中创建一个sdk》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gradle主目录和Gradle脱机目录之间的区别

如何解决《Gradle主目录和Gradle脱机目录之间的区别》经验，为你挑选了0个好方法。 ... [详细]
程序员
heroku版本在ubuntu 14.04中执行命令"heroku version"时给出错误"ERROR:EOF"？

如何解决《heroku版本在ubuntu14.04中执行命令"herokuversion"时给出错误"ERROR:EOF"？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何摆脱AngularJS Material插入的多个样式标签？

如何解决《如何摆脱AngularJSMaterial插入的多个样式标签？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在kubernetes中传递命令行参数？

如何解决《如何在kubernetes中传递命令行参数？》经验，为你挑选了1个好方法。 ... [详细]

贾志军

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章