在scikit中使用Featureunion - 学习将两个pandas列合并为tfidf

作者：谢谢巷议 | 2023-09-07 20:24

如何解决《在scikit中使用Featureunion-学习将两个pandas列合并为tfidf》经验，为你挑选了1个好方法。

使用此作为垃圾邮件分类的模型时,我想添加主题和正文的附加功能.

我在熊猫数据框中拥有所有功能.例如,主题是df ['Subject'],正文是df ['body_text'],垃圾邮件/火腿标签是df ['ham/spam']

我收到以下错误:TypeError:'FeatureUnion'对象不可迭代

如何通过管道功能运行df ['Subject']和df ['body_text']作为功能？

from sklearn.pipeline import FeatureUnion
features = df[['Subject', 'body_text']].values
combined_2 = FeatureUnion(list(features))

pipeline = Pipeline([
('count_vectorizer',  CountVectorizer(ngram_range=(1, 2))),
('tfidf_transformer',  TfidfTransformer()),
('classifier',  MultinomialNB())])

pipeline.fit(combined_2, df['ham/spam'])

k_fold = KFold(n=len(df), n_folds=6)
scores = []
confusion = numpy.array([[0, 0], [0, 0]])
for train_indices, test_indices in k_fold:
    train_text = combined_2.iloc[train_indices]
    train_y = df.iloc[test_indices]['ham/spam'].values

    test_text = combined_2.iloc[test_indices]
    test_y = df.iloc[test_indices]['ham/spam'].values

    pipeline.fit(train_text, train_y)
    predictions = pipeline.predict(test_text)
    prediction_prob = pipeline.predict_proba(test_text)

    confusion += confusion_matrix(test_y, predictions)
    score = f1_score(test_y, predictions, pos_label='spam')
    scores.append(score)

David Maust.. 25

FeatureUnion并不意味着以这种方式使用.它取而代之的是两个特征提取器/矢量化器并将它们应用于输入.它不会像构造函数那样显示构造函数中的数据.

CountVectorizer期待一系列字符串.提供它的最简单方法是将字符串连接在一起.这会将两列中的文本都传递给它们CountVectorizer.

combined_2 = df['Subject'] + ' '  + df['body_text']

另一种方法是在每列上运行CountVectorizer并可选地TfidfTransformer单独运行,然后堆叠结果.

import scipy.sparse as sp

subject_vectorizer = CountVectorizer(...)
subject_vectors = subject_vectorizer.fit_transform(df['Subject'])

body_vectorizer = CountVectorizer(...)
body_vectors = body_vectorizer.fit_transform(df['Subject'])

combined_2 = sp.hstack([subject_vectors, body_vectors], format='csr')

第三种选择是实现自己的变换器,它将提取数据帧列.

class DataFrameColumnExtracter(TransformerMixin):

    def __init__(self, column):
        self.column = column

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        return X[self.column]

在这种情况下,您可以FeatureUnion在两个管道上使用,每个管道都包含您的自定义变换器CountVectorizer.

subj_pipe = make_pipeline(
       DataFrameColumnExtracter('Subject'), 
       CountVectorizer()
)

body_pipe = make_pipeline(
       DataFrameColumnExtracter('body_text'), 
       CountVectorizer()
)

feature_union = make_union(subj_pipe, body_pipe)

管道的这个特征联合将采用数据帧,每个管道将处理其列.它将从给定的两列产生术语计数矩阵的串联.

 sparse_matrix_of_counts = feature_union.fit_transform(df)

此功能联合也可以作为更大管道中的第一步添加.

1> David Maust..：

FeatureUnion并不意味着以这种方式使用.它取而代之的是两个特征提取器/矢量化器并将它们应用于输入.它不会像构造函数那样显示构造函数中的数据.

CountVectorizer期待一系列字符串.提供它的最简单方法是将字符串连接在一起.这会将两列中的文本都传递给它们CountVectorizer.

combined_2 = df['Subject'] + ' '  + df['body_text']

另一种方法是在每列上运行CountVectorizer并可选地TfidfTransformer单独运行,然后堆叠结果.

import scipy.sparse as sp

subject_vectorizer = CountVectorizer(...)
subject_vectors = subject_vectorizer.fit_transform(df['Subject'])

body_vectorizer = CountVectorizer(...)
body_vectors = body_vectorizer.fit_transform(df['Subject'])

combined_2 = sp.hstack([subject_vectors, body_vectors], format='csr')

第三种选择是实现自己的变换器,它将提取数据帧列.

class DataFrameColumnExtracter(TransformerMixin):

    def __init__(self, column):
        self.column = column

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        return X[self.column]

在这种情况下,您可以FeatureUnion在两个管道上使用,每个管道都包含您的自定义变换器CountVectorizer.

subj_pipe = make_pipeline(
       DataFrameColumnExtracter('Subject'), 
       CountVectorizer()
)

body_pipe = make_pipeline(
       DataFrameColumnExtracter('body_text'), 
       CountVectorizer()
)

feature_union = make_union(subj_pipe, body_pipe)

管道的这个特征联合将采用数据帧,每个管道将处理其列.它将从给定的两列产生术语计数矩阵的串联.

 sparse_matrix_of_counts = feature_union.fit_transform(df)

此功能联合也可以作为更大管道中的第一步添加.

我觉得这也是一个很好的参考.[FeatureUnion](http://scikit-learn.org/stable/auto_examples/hetero_feature_union.html#example-hetero-feature-union-py)

推荐阅读

程序员
对于按位NOT运算,哪个更快:预先计算的表或`~`

如何解决《对于按位NOT运算,哪个更快:预先计算的表或`~`》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用张量板时,如何总结在几个小型计算机上计算的损失？

如何解决《使用张量板时,如何总结在几个小型计算机上计算的损失？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在非播放应用程序中使用play框架配置库命令行参数

如何解决《如何在非播放应用程序中使用play框架配置库命令行参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检测导航抽屉外的触摸事件

如何解决《如何检测导航抽屉外的触摸事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
TypeError:需要类似字节的对象,而不是python和CSV中的'str'

如何解决《TypeError:需要类似字节的对象,而不是python和CSV中的'str'》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用UUIDField作为主键时，如何判断模型实例是否是新的

如何解决《使用UUIDField作为主键时，如何判断模型实例是否是新的》经验，为你挑选了0个好方法。 ... [详细]
程序员
dnx-clr-win-x86.1.0,0,rc1-final和dnx-clr-win-x86.1.0,0.rc1-update1之间的区别

如何解决《dnx-clr-win-x86.1.0,0,rc1-final和dnx-clr-win-x86.1.0,0.rc1-update1之间的区别》经验，为你挑选了2个好方法。 ... [详细]
程序员
关闭未知长度的通道

如何解决《关闭未知长度的通道》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用SQLAlchemy定义没有主键的表？

如何解决《如何使用SQLAlchemy定义没有主键的表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在工具栏下方放置溢出菜单而不是溢出菜单以重叠工具栏

如何解决《如何在工具栏下方放置溢出菜单而不是溢出菜单以重叠工具栏》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么pandas将unsigned int大于2**63-1转换为对象？

如何解决《为什么pandas将unsignedint大于2**63-1转换为对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C++中隐藏我的AWS S3访问密钥和密钥？

如何解决《如何在C++中隐藏我的AWSS3访问密钥和密钥？》经验，为你挑选了0个好方法。 ... [详细]
程序员
alvarotrigo.com/fullPage/和bootstrap 3网格问题

如何解决《alvarotrigo.com/fullPage/和bootstrap3网格问题》经验，为你挑选了0个好方法。 ... [详细]
程序员
格式化图表中的数字ios swift

如何解决《格式化图表中的数字iosswift》经验，为你挑选了1个好方法。 ... [详细]
程序员
允许Google Compute Engine(GCE)中的WebSockets

如何解决《允许GoogleComputeEngine(GCE)中的WebSockets》经验，为你挑选了1个好方法。 ... [详细]
程序员
构建GoogleSignInOptions时的firebase serverClientId

如何解决《构建GoogleSignInOptions时的firebaseserverClientId》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用Realm排序？

如何解决《如何使用Realm排序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
toLocaleLowerCase()和toLowerCase()之间的区别

如何解决《toLocaleLowerCase()和toLowerCase()之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
For循环在Groovy和Java中的工作方式不同

如何解决《For循环在Groovy和Java中的工作方式不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Android中从名称或lat获取PlaceID？

如何解决《如何在Android中从名称或lat获取PlaceID？》经验，为你挑选了1个好方法。 ... [详细]

谢谢巷议

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章