6赞

Scikit Learn Multilabel分类:ValueError:您似乎正在使用传统的多标签数据表示

作者：Gbom2402851125 | 2023-09-10 15:32

如何解决《ScikitLearnMultilabel分类:ValueError:您似乎正在使用传统的多标签数据表示》经验，为你挑选了1个好方法。

我正在尝试使用scikit学习0.17与anaconda 2.7的多标签分类问题.这是我的代码

import pandas as pd
import pickle
import re
from sklearn.cross_validation import train_test_split
from sklearn.metrics.metrics import classification_report, accuracy_score, confusion_matrix
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB as MNB
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV

traindf = pickle.load(open("train.pkl","rb"))

X, y = traindf['colC'], traindf['colB'].as_matrix()

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, train_size=0.7)

pip = Pipeline([
('vect', TfidfVectorizer(
                        analyzer='word',
                        binary=False,
                        decode_error='ignore',
                        dtype=,
                        encoding=u'utf-8',
                        input=u'content',
                        lowercase=True,
                        max_df=0.25,
                        max_features=None,
                        min_df=1,
                        ngram_range=(1, 1),
                        norm=u'l2',
                        preprocessor=None,
                        smooth_idf=True,
                        stop_words='english',
                        strip_accents=None,
                        sublinear_tf=True,
                        token_pattern=u'(?u)\\b\\w\\w+\\b',
                        tokenizer=nltk.data.load('tokenizers/punkt/english.pickle'),
                        use_idf=True, vocabulary=None)),
('clf', LogisticRegression(
                        C=10,
                        class_weight=None,
                        dual=False,
                        fit_intercept=True,
                        intercept_scaling=1,
                        max_iter=100,
                        multi_class='multinomial',
                        n_jobs=1,
                        penalty='l2', 
                        random_state=None, 
                        solver='lbfgs',
                        tol=0.0001,
                        verbose=0, 
                        warm_start=False))
                ])

parameters = {}

gridSearchTS = GridSearchCV(pip,parameters,n_jobs=3, verbose=1, scoring='accuracy')
gridSearchTS.fit(Xtrain, ytrain)

predictions = gridSearchTS.predict(Xtest)

print ('Accuracy:', accuracy_score(ytest, predictions))
print ('Confusion Matrix:', confusion_matrix(ytest, predictions))
print ('Classification Report:', classification_report(ytest, predictions))

testdf = pickle.load(open("test.pkl","rb"))

predictions=gridSearchTS.predict(testdf['colC'])

testdf['colB'] = predictions

print(testdf.info())

testdf.to_csv("res.csv")

这是我的数据的样子

训练

colC                colB
some text           [list of tags]
some text           [list of tags]

测试

colC                    
some text           
some text

但我得到错误

raise ValueError('You appear to be using a legacy multi-label data'
ValueError: You appear to be using a legacy multi-label data representation. Sequence of sequences are no longer supported; use a binary array or sparse matrix instead.

这是什么意思？

这是完整的堆栈跟踪

Traceback (most recent call last):

  File "X:\asd.py", line 34, in getTags
    gridSearchTS.fit(Xtrain, ytrain)
  File "X:\popol\Continuum\Anaconda2\lib\site-packages\sklearn\grid_search.py", line 804, in fit
    return self._fit(X, y, ParameterGrid(self.param_grid))
  File "X:\popol\Continuum\Anaconda2\lib\site-packages\sklearn\grid_search.py", line 532, in _fit
    cv = check_cv(cv, X, y, classifier=is_classifier(estimator))
  File "X:\popol\Continuum\Anaconda2\lib\site-packages\sklearn\cross_validation.py", line 1676, in check_cv
    if type_of_target(y) in ['binary', 'multiclass']:
  File "X:\popol\Continuum\Anaconda2\lib\site-packages\sklearn\utils\multiclass.py", line 251, in type_of_target
    raise ValueError('You appear to be using a legacy multi-label data'
ValueError: You appear to be using a legacy multi-label data representation. Sequence of sequences are no longer supported; use a binary array or sparse matrix instead.

我该如何解决？我需要更改数据的格式吗？为什么gridSearchTS.fit(Xtrain,ytrain)失败了？如何使X和y适合拟合函数？

编辑

我试过了

        from sklearn.preprocessing import MultiLabelBinarizer  
        y=MultiLabelBinarizer().fit_transform(y)      

        random_state = np.random.RandomState(0)


        # Split into training and test
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.5,
                                                            random_state=random_state)

        # Run classifier
        from sklearn import svm, datasets
        classifier = OneVsRestClassifier(svm.SVC(kernel='linear', probability=True,
                                         random_state=random_state))
        y_score = classifier.fit(X_train, y_train).decision_function(X_test)

但现在我明白了

ValueError: could not convert string to float:

上

y_score = classifier.fit(X_train, y_train).decision_function(X_test)

我是否也必须将X二进制化？为什么我需要将X维度转换为浮点数？

1> erip..：

文档给出了这个例子:

>>> from sklearn.preprocessing import MultiLabelBinarizer
>>> y = [[2, 3, 4], [2], [0, 1, 3], [0, 1, 2, 3, 4], [0, 1, 2]]
>>> MultiLabelBinarizer().fit_transform(y)
array([[0, 0, 1, 1, 1],
       [0, 0, 1, 0, 0],
       [1, 1, 0, 1, 0],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 0, 0]])

MultiLabelBinarizer.fit_transform接收您的标记集并可以输出二进制数组.然后输出应该可以传递给您的拟合函数.

请注意,您还可以使用[pipeline](http://scikit-learn.org/stable/modules/pipeline.html#pipeline)来避免传递数据.

推荐阅读

程序员
vscode中的tasks.json文件在哪里？

如何解决《vscode中的tasks.json文件在哪里？》经验，为你挑选了1个好方法。 ... [详细]
程序员
AVAudioEngine.start()崩溃,即使它包含在do/catch中

如何解决《AVAudioEngine.start()崩溃,即使它包含在do/catch中》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何解决这个"索引0超出空数组的界限!"

如何解决《如何解决这个"索引0超出空数组的界限!"》经验，为你挑选了1个好方法。 ... [详细]
程序员
IntelliJ中的调试gradle任务

如何解决《IntelliJ中的调试gradle任务》经验，为你挑选了0个好方法。 ... [详细]
程序员
正确处理PHP 7返回类型的方法

如何解决《正确处理PHP7返回类型的方法》经验，为你挑选了3个好方法。 ... [详细]
程序员
选择一个选项时，显示组合框值而不是文本

如何解决《选择一个选项时，显示组合框值而不是文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
414 URI太长了.但不总是

如何解决《414URI太长了.但不总是》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Microsoft SQL Server中使用复合键

如何解决《在MicrosoftSQLServer中使用复合键》经验，为你挑选了0个好方法。 ... [详细]
程序员
适用于iOS 9+的Objective-C iOS日历视图

如何解决《适用于iOS9+的Objective-CiOS日历视图》经验，为你挑选了1个好方法。 ... [详细]
程序员
得到奇怪的'未定义方法'错误

如何解决《得到奇怪的'未定义方法'错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery load（）不会在div中加载脚本标签

如何解决《jQueryload（）不会在div中加载脚本标签》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用R到COUNT()和GROUP_CONCAT(DISTINCT x)

如何解决《使用R到COUNT()和GROUP_CONCAT(DISTINCTx)》经验，为你挑选了2个好方法。 ... [详细]
程序员
ProgressBar的颜色没有改变c#

如何解决《ProgressBar的颜色没有改变c#》经验，为你挑选了1个好方法。 ... [详细]
程序员
Active Directory LDAP示例

如何解决《ActiveDirectoryLDAP示例》经验，为你挑选了0个好方法。 ... [详细]
程序员
方法的擦除与类型中的另一种方法相同

如何解决《方法的擦除与类型中的另一种方法相同》经验，为你挑选了1个好方法。 ... [详细]
程序员
在派生类中传递* args / ** kwargs

如何解决《在派生类中传递*args/**kwargs》经验，为你挑选了1个好方法。 ... [详细]
程序员
msvc"断点当前不会被击中"

如何解决《msvc"断点当前不会被击中"》经验，为你挑选了0个好方法。 ... [详细]
程序员
Firefox会在选择时触发,而不是在更改时触发

如何解决《Firefox会在选择时触发,而不是在更改时触发》经验，为你挑选了0个好方法。 ... [详细]
程序员
多个匹配分隔符

如何解决《多个匹配分隔符》经验，为你挑选了1个好方法。 ... [详细]
程序员
在数组中的每个对象上调用实例方法

如何解决《在数组中的每个对象上调用实例方法》经验，为你挑选了1个好方法。 ... [详细]

Gbom2402851125

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章