14赞

如何获得可重复但不同的GroupKFold实例

作者：mobiledu2402852357 | 2023-09-06 14:28

如何解决《如何获得可重复但不同的GroupKFold实例》经验，为你挑选了1个好方法。

在GroupKFold源中,random_state设置为None

    def __init__(self, n_splits=3):
    super(GroupKFold, self).__init__(n_splits, shuffle=False,
                                     random_state=None)

因此,多次运行时(代码来自这里)

import numpy as np
from sklearn.model_selection import GroupKFold

for i in range(0,10):
    X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
    y = np.array([1, 2, 3, 4])
    groups = np.array([0, 0, 2, 2])
    group_kfold = GroupKFold(n_splits=2)
    group_kfold.get_n_splits(X, y, groups)

    print(group_kfold)

    for train_index, test_index in group_kfold.split(X, y, groups):
        print("TRAIN:", train_index, "TEST:", test_index)
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
        print(X_train, X_test, y_train, y_test)
    print 
    print

O/P

GroupKFold(n_splits=2)
('TRAIN:', array([0, 1]), 'TEST:', array([2, 3]))
(array([[1, 2],
       [3, 4]]), array([[5, 6],
       [7, 8]]), array([1, 2]), array([3, 4]))
('TRAIN:', array([2, 3]), 'TEST:', array([0, 1]))
(array([[5, 6],
       [7, 8]]), array([[1, 2],
       [3, 4]]), array([3, 4]), array([1, 2]))


GroupKFold(n_splits=2)
('TRAIN:', array([0, 1]), 'TEST:', array([2, 3]))
(array([[1, 2],
       [3, 4]]), array([[5, 6],
       [7, 8]]), array([1, 2]), array([3, 4]))
('TRAIN:', array([2, 3]), 'TEST:', array([0, 1]))
(array([[5, 6],
       [7, 8]]), array([[1, 2],
       [3, 4]]), array([3, 4]), array([1, 2]))

等......

分裂是相同的.

如何设置random_statefor GroupKFold以便在交叉验证的几个不同试验中获得不同(但可重复)的分组集？

我想要

GroupKFold(n_splits=2, random_state=42)
('TRAIN:', array([0, 1]), 
  'TEST:', array([2, 3]))

('TRAIN:', array([2, 3]), 
'TEST:', array([0, 1]))


GroupKFold(n_splits=2, random_state=13)
('TRAIN:', array([0, 2]), 
 'TEST:', array([1, 3]))

('TRAIN:', array([1, 3]), 
'TEST:', array([0, 2]))

到目前为止,这似乎是一个策略可能是使用sklearn.utils.shuffle第一,在此建议后.然而,这实际上只是重新排列每个折叠的元素 - 它不会给我们新的分裂.

from sklearn.utils import shuffle
from sklearn.model_selection import GroupKFold
import numpy as np
import sys
import pdb

random_state = int(sys.argv[1])


X = np.arange(20).reshape((10,2))
y = np.arange(10)
groups = np.array([0,0,0,1,2,3,4,5,6,7])

def cv(X, y, groups, random_state):
    X_s, y_s, groups_s = shuffle(X,y, groups, random_state=random_state)
    cv_out = GroupKFold(n_splits=2)
    cv_out_splits = cv_out.split(X_s, y_s, groups_s)
    for train, test in cv_out_splits:
        print "---"
        print X_s[test]
        print y_s[test]
        print "test groups", groups_s[test]
        print "train groups", groups_s[train]
    pdb.set_trace()
print "***"
cv(X, y, groups, random_state)

输出:

>python sshuf.py 32

***
---
[[ 2  3]
 [ 4  5]
 [ 0  1]
 [ 8  9]
 [12 13]]
[1 2 0 4 6]
test groups [0 0 0 2 4]
train groups [7 6 1 3 5]
---
[[18 19]
 [16 17]
 [ 6  7]
 [10 11]
 [14 15]]
[9 8 3 5 7]
test groups [7 6 1 3 5]
train groups [0 0 0 2 4]

>python sshuf.py 234

***
---
[[12 13]
 [ 4  5]
 [ 0  1]
 [ 2  3]
 [ 8  9]]
[6 2 0 1 4]
test groups [4 0 0 0 2]
train groups [7 3 1 5 6]
---
[[18 19]
 [10 11]
 [ 6  7]
 [14 15]
 [16 17]]
[9 5 3 7 8]
test groups [7 3 1 5 6]
train groups [4 0 0 0 2]

joeln.. 8

KFold只是随机的shuffle=True.一些数据集不应该被洗牌.

GroupKFold根本不是随机的.因此random_state=None.

GroupShuffleSplit 可能更接近你正在寻找的东西.

基于组的分离器的比较:

在GroupKFold,测试集形成所有数据的完整分区.

LeavePGroupsOut将所有可能的P组子集组合出来,组合起来; 对于P> 1,测试集将重叠.因为这意味着P ** n_groups完全分裂,通常你想要一个小的P,并且最常想要的LeaveOneGroupOut是GroupKFold与它基本相同的k=1.

GroupShuffleSplit没有说明连续测试集之间的关系; 每个列车/测试拆分是独立执行的.

另外,Dmytro Lituiev 提出了一种替代GroupShuffleSplit算法,它可以更好地在指定的测试集中获得正确数量的样本(不仅仅是正确数量的组)test_size.

1> joeln..：

KFold只是随机的shuffle=True.一些数据集不应该被洗牌.

GroupKFold根本不是随机的.因此random_state=None.

GroupShuffleSplit 可能更接近你正在寻找的东西.

基于组的分离器的比较:

在GroupKFold,测试集形成所有数据的完整分区.

GroupShuffleSplit没有说明连续测试集之间的关系; 每个列车/测试拆分是独立执行的.

另外,Dmytro Lituiev 提出了一种替代GroupShuffleSplit算法,它可以更好地在指定的测试集中获得正确数量的样本(不仅仅是正确数量的组)test_size.

推荐阅读

程序员
如何将NSString转换为NSData？

如何解决《如何将NSString转换为NSData？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C程序中的函数格式

如何解决《C程序中的函数格式》经验，为你挑选了1个好方法。 ... [详细]
程序员
截取wpf弹出窗口的截图

如何解决《截取wpf弹出窗口的截图》经验，为你挑选了1个好方法。 ... [详细]
程序员
cvs,"文件应该删除并且仍然存在(或者再次返回)"

如何解决《cvs,"文件应该删除并且仍然存在(或者再次返回)"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何选择一个独特的DIV并使用jQuery取消选择其余的？

如何解决《如何选择一个独特的DIV并使用jQuery取消选择其余的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C/C++ GUI应用程序的自动化测试

如何解决《C/C++GUI应用程序的自动化测试》经验，为你挑选了0个好方法。 ... [详细]
程序员
项目级c ++异常处理策略

如何解决《项目级c++异常处理策略》经验，为你挑选了1个好方法。 ... [详细]
程序员
缺少makecert.exe

如何解决《缺少makecert.exe》经验，为你挑选了3个好方法。 ... [详细]
程序员
将通用List <string>绑定到ComboBox

如何解决《将通用List<string>绑定到ComboBox》经验，为你挑选了1个好方法。 ... [详细]
程序员
需要CSS侧边栏高度以扩展内容

如何解决《需要CSS侧边栏高度以扩展内容》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何从列表中选择随机名称并将其存储在变量中？

如何解决《如何从列表中选择随机名称并将其存储在变量中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是.NET开发人员？

如何解决《什么是.NET开发人员？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用SVN hotcopy恢复存储库？

如何解决《如何使用SVNhotcopy恢复存储库？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将数组传递给方法Java

如何解决《将数组传递给方法Java》经验，为你挑选了3个好方法。 ... [详细]
程序员
ListBox上的WPF动画

如何解决《ListBox上的WPF动画》经验，为你挑选了1个好方法。 ... [详细]
程序员
何时使用替代Python发行版？

如何解决《何时使用替代Python发行版？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在python中格式化变量吗？

如何解决《我可以在python中格式化变量吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
xsl遍历字母表列表

如何解决《xsl遍历字母表列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
还有另一个MVVM问题......我的理解是否正确？

如何解决《还有另一个MVVM问题我的理解是否正确？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Church Retreat在线注册/付款

如何解决《ChurchRetreat在线注册/付款》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402852357

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章