13赞

cross_val_predict之后对新文档进行分类

作者：周扒pi | 2023-09-06 16:36

如何解决《cross_val_predict之后对新文档进行分类》经验，为你挑选了1个好方法。

我有大约10,000条推文的样本，我希望将其分类为“相关”和“不相关”。我正在为此模型使用Python的scikit-learn。我手动将1,000条推文编码为“相关”或“不相关”。然后，我使用80％的手动编码数据作为训练数据，其余的作为测试数据运行了SVM模型。我获得了良好的结果（预测准确度〜0.90），但是为了避免过度拟合，我决定对所有1,000条手动编码的推文使用交叉验证。

下面是我的代码，已经为示例中的推文获取了tf-idf矩阵。“目标”是一个数组，列出了该推文是否标记为“相关”或“不相关”。

from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_val_predict

clf = SGDClassifier()
scores = cross_val_score(clf, X_tfidf, target, cv=10)
predicted = cross_val_predict(clf, X_tfidf, target, cv=10)

通过此代码，我可以预测1,000条推文所属的类，并将其与我的手动编码进行比较。

为了继续使用模型对我没有手动编码的其他约9000条推文进行分类，我坚持下一步要做的事情。我当时在考虑cross_val_predict再次使用，但是由于类是我要预测的内容，因此我不确定在第三个参数中输入什么。

预先感谢您的所有帮助！

1> lejlot..：

cross_val_predict 不是从模型实际获取预测的方法。交叉验证是一种用于模型选择/评估的技术，无需训练模型。cross_val_predict是非常特定的功能（它为您提供了在交叉验证过程中训练的许多模型的预测）。对于实际的模型构建，yu应该使用拟合来训练模型并预测获得预测。如前所述，此处不涉及交叉验证，这是用于模型选择（选择分类器，超参数等），而不是训练实际模型。

推荐阅读

程序员
ForkJoinPool.invoke()和ForkJoinTask.invoke()或compute()

如何解决《ForkJoinPool.invoke()和ForkJoinTask.invoke()或compute()》经验，为你挑选了1个好方法。 ... [详细]
程序员
多个广告尺寸的Google广告会导致失败

如何解决《多个广告尺寸的Google广告会导致失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
正则表达式(C#)对于RFC 4180的CSV

如何解决《正则表达式(C#)对于RFC4180的CSV》经验，为你挑选了0个好方法。 ... [详细]
程序员
IntelliJ - 查找未记录的公共方法

如何解决《IntelliJ-查找未记录的公共方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
与'wss:// ...'的WebSocket连接失败:连接建立错误:net :: ERR_CONNECTION_CLOSED

如何解决《与'wss://'的WebSocket连接失败:连接建立错误:net::ERR_CONNECTION_CLOSED》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么要将String转换为String？

如何解决《为什么要将String转换为String？》经验，为你挑选了1个好方法。 ... [详细]
程序员
c中的typedef枚举说明

如何解决《c中的typedef枚举说明》经验，为你挑选了2个好方法。 ... [详细]
程序员
用于组件的Typescript Angular 1.5 defintion文件

如何解决《用于组件的TypescriptAngular1.5defintion文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
由于"signed char"和"char",系统头文件中的重定义错误

如何解决《由于"signedchar"和"char",系统头文件中的重定义错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
在行删除时如何获取gridview行值？

如何解决《在行删除时如何获取gridview行值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
链接到IntelliJ中的外部Scala API文档

如何解决《链接到IntelliJ中的外部ScalaAPI文档》经验，为你挑选了0个好方法。 ... [详细]
程序员
"*"附近的语法不正确

如何解决《"*"附近的语法不正确》经验，为你挑选了1个好方法。 ... [详细]
程序员
RealmSwift + Multiple Predicate

如何解决《RealmSwift+MultiplePredicate》经验，为你挑选了1个好方法。 ... [详细]
程序员
禁用AppBarLayout的扩展

如何解决《禁用AppBarLayout的扩展》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在textview中以编程方式设置layout_toEndOf和layout_toRightOf

如何解决《如何在textview中以编程方式设置layout_toEndOf和layout_toRightOf》经验，为你挑选了1个好方法。 ... [详细]
程序员
UICollectionView - 调整设备上的单元格旋转 - Swift

如何解决《UICollectionView-调整设备上的单元格旋转-Swift》经验，为你挑选了5个好方法。 ... [详细]
程序员
从非UI线程更新视图

如何解决《从非UI线程更新视图》经验，为你挑选了0个好方法。 ... [详细]
程序员
Eclipse:Java堆空间,如何解决？

如何解决《Eclipse:Java堆空间,如何解决？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从范围注入依赖？

如何解决《如何从范围注入依赖？》经验，为你挑选了1个好方法。 ... [详细]
程序员
psycopg2.ProgrammingError:"st"\ r \n附近的语法错误,

如何解决《psycopg2.ProgrammingError:"st"\r\n附近的语法错误,》经验，为你挑选了1个好方法。 ... [详细]

周扒pi

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章