17赞

Weka忽略了未标记的数据

作者：手机用户2402852387 | 2023-07-12 20:18

如何解决《Weka忽略了未标记的数据》经验，为你挑选了1个好方法。

我正在使用Weka中的Naive Bayes分类器进行NLP分类项目.我打算使用半监督机器学习,因此使用未标记的数据.当我在一组独立的未标记测试数据上测试从我的标记训练数据中获得的模型时,Weka会忽略所有未标记的实例.任何人都可以指导我如何解决这个问题？之前有人已在此处提出此问题,但未提供任何适当的解决方案.这是一个示例测试文件:

@relation referents
@attribute feature1      NUMERIC
@attribute feature2      NUMERIC
@attribute feature3      NUMERIC
@attribute feature4      NUMERIC
@attribute class{1 -1}
@data
1, 7, 1, 0, ?
1, 5, 1, 0, ?
-1, 1, 1, 0, ?
1, 1, 1, 1, ?
-1, 1, 1, 1, ?

Sentry.. 5

问题是,当您指定训练集 -t train.arff和测试集时 test.arff,操作模式是基于测试集计算模型的性能.但是如果不了解实际的课程,就无法计算出任何形式的表现.没有实际的课程,你怎么知道你的预测是对还是错？

我使用了您提供的数据train.arff以及test.arff我指定的任意类标签.相关的输出线是:

=== Error on training data ===

Correctly Classified Instances           4               80      %
Incorrectly Classified Instances         1               20      %
Kappa statistic                          0.6154
Mean absolute error                      0.2429
Root mean squared error                  0.4016
Relative absolute error                 50.0043 %
Root relative squared error             81.8358 %
Total Number of Instances                5     


=== Confusion Matrix ===

 a b   <-- classified as
 2 1 | a = 1
 0 2 | b = -1

和

=== Error on test data ===

Total Number of Instances                0     
Ignored Class Unknown Instances                  5     


=== Confusion Matrix ===

 a b   <-- classified as
 0 0 | a = 1
 0 0 | b = -1

Weka可以为您提供训练集的统计数据,因为它知道实际的类标签和预测的标签(在训练集上应用模型).对于测试集,它无法获得有关性能的任何信息,因为它不知道真正的类标签.

你可能想做的是:

java -cp weka.jar weka.classifiers.bayes.NaiveBayes -t train.arff -T test.arff -p 1-4

在我的情况下会给你:

=== Predictions on test data ===

 inst#     actual  predicted error prediction (feature1,feature2,feature3,feature4)
     1        1:?        1:1       1 (1,7,1,0)
     2        1:?        1:1       1 (1,5,1,0)
     3        1:?       2:-1       0.786 (-1,1,1,0)
     4        1:?       2:-1       0.861 (1,1,1,1)
     5        1:?       2:-1       0.861 (-1,1,1,1)

所以,你可以得到的预测,但你不能得到一个表现,因为你未标记的测试数据.

1> Sentry..：

我使用了您提供的数据train.arff以及test.arff我指定的任意类标签.相关的输出线是:

=== Error on training data ===

Correctly Classified Instances           4               80      %
Incorrectly Classified Instances         1               20      %
Kappa statistic                          0.6154
Mean absolute error                      0.2429
Root mean squared error                  0.4016
Relative absolute error                 50.0043 %
Root relative squared error             81.8358 %
Total Number of Instances                5     


=== Confusion Matrix ===

 a b   <-- classified as
 2 1 | a = 1
 0 2 | b = -1

和

=== Error on test data ===

Total Number of Instances                0     
Ignored Class Unknown Instances                  5     


=== Confusion Matrix ===

 a b   <-- classified as
 0 0 | a = 1
 0 0 | b = -1

你可能想做的是:

java -cp weka.jar weka.classifiers.bayes.NaiveBayes -t train.arff -T test.arff -p 1-4

在我的情况下会给你:

=== Predictions on test data ===

 inst#     actual  predicted error prediction (feature1,feature2,feature3,feature4)
     1        1:?        1:1       1 (1,7,1,0)
     2        1:?        1:1       1 (1,5,1,0)
     3        1:?       2:-1       0.786 (-1,1,1,0)
     4        1:?       2:-1       0.861 (1,1,1,1)
     5        1:?       2:-1       0.861 (-1,1,1,1)

所以,你可以得到的预测,但你不能得到一个表现,因为你未标记的测试数据.

是的,因为class属性是名义上的,每个值都由其索引(1和2)标识,但实际值(1和-1)也是打印的.(参见weka.classifiers.Evaluation#predictionText).请不要忘记upvote,我喜欢我的观点;)

推荐阅读

程序员
允许访问Apache中的隐藏目录（。）

如何解决《允许访问Apache中的隐藏目录（。）》经验，为你挑选了0个好方法。 ... [详细]
程序员
检查时差是否小于45分钟并运行功能 - AngularJS

如何解决《检查时差是否小于45分钟并运行功能-AngularJS》经验，为你挑选了0个好方法。 ... [详细]
程序员
Siri Remote.定向箭头

如何解决《SiriRemote.定向箭头》经验，为你挑选了1个好方法。 ... [详细]
程序员
多语种玉模板？

如何解决《多语种玉模板？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在python中优雅地记录多个非常相似的事件？

如何解决《如何在python中优雅地记录多个非常相似的事件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
更改NavigationView分隔线颜色和子标题文本颜色

如何解决《更改NavigationView分隔线颜色和子标题文本颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio:安装更新补丁

如何解决《AndroidStudio:安装更新补丁》经验，为你挑选了1个好方法。 ... [详细]
程序员
当我尝试使用p4 client -d删除工作区时,我收到消息"客户端已锁定,无法删除"

如何解决《当我尝试使用p4client-d删除工作区时,我收到消息"客户端已锁定,无法删除"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用symfony只渲染表单的一个字段

如何解决《如何使用symfony只渲染表单的一个字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何阅读此C++语句

如何解决《如何阅读此C++语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用FormData和multer上传文件

如何解决《使用FormData和multer上传文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Guava是否提供了一种解除字符串的方法？

如何解决《Guava是否提供了一种解除字符串的方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在列表和数组中按索引获取struct项

如何解决《在列表和数组中按索引获取struct项》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何清除TextBox以使默认的Undo方法仍然起作用？

如何解决《如何清除TextBox以使默认的Undo方法仍然起作用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery自动完成悬停样式

如何解决《jQuery自动完成悬停样式》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将相机聚焦在Windows Universal Apps中？

如何解决《如何将相机聚焦在WindowsUniversalApps中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript中的2D数组

如何解决《Javascript中的2D数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
EC2实例可以拒绝自动终止吗？

如何解决《EC2实例可以拒绝自动终止吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
ServerSocket无法从客户端读取输入

如何解决《ServerSocket无法从客户端读取输入》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加一个int变量时生成不同的IL

如何解决《添加一个int变量时生成不同的IL》经验，为你挑选了2个好方法。 ... [详细]

手机用户2402852387

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章