6赞

如何使用sklearn的CountVectorizer进行矢量化和反矢量化？

作者：mobiledu2402851323 | 2023-09-07 12:20

如何解决《如何使用sklearn的CountVectorizer进行矢量化和反矢量化？》经验，为你挑选了1个好方法。

1> Jakub Macina..：

要将句子向量化为整数，可以使用transform函数。此函数的输出是具有每个术语计数的向量-特征向量。

vec = CountVectorizer()
vec.fit(a)
print vec.vocabulary_

new_sentence = "dolor nulla enim"
mapped_a = vec.transform([new_sentence])
print mapped_a.toarray() # sparse feature vector

tokenizer = vec.build_tokenizer()
# array of words ids
for token in tokenizer(new_sentence):
    print vec.vocabulary_.get(token)

问题的第二部分不是那么简单。CountVectorizer具有inverse_transform用于此目的的功能，将稀疏的特征向量作为输入。但是，在您的示例中，您想创建一个句子，在该句子中可能会出现相同的术语，而使用该功能是不可能的。

但是，解决方案是使用词汇（单词到id）并基于其构建逆词汇（单词到单词）。CountVectorizer默认情况下为no inverse_vocabulary，您必须基于创建它vocabulary。

input = [2,9,9]

# 1. inverse_transform function
# create sparse vector
sparse_input = [1 if i in input else 0 for i in range(0, len(vec.vocabulary_))]
print vec.inverse_transform(sparse_input)
> ['aliquam', 'commodo']


# 2. Inverse vocabulary - custom solution
terms = np.array(list(vec.vocabulary_.keys()))
indices = np.array(list(vec.vocabulary_.values()))
inverse_vocabulary = terms[np.argsort(indices)]

for i in input:
    print inverse_vocabulary[i]
> ['aliquam', 'commodo', 'commodo']

推荐阅读

程序员
如何在groupBy之后将值聚合到集合中？

如何解决《如何在groupBy之后将值聚合到集合中？》经验，为你挑选了2个好方法。 ... [详细]
程序员
IdentityServer 3使用刷新令牌刷新用户

如何解决《IdentityServer3使用刷新令牌刷新用户》经验，为你挑选了0个好方法。 ... [详细]
程序员
SoundCloud API v3 Stream无法在Chrome中运行

如何解决《SoundCloudAPIv3Stream无法在Chrome中运行》经验，为你挑选了0个好方法。 ... [详细]
程序员
将VS2015更新为Update 1后,Changeset注释策略中的内部错误

如何解决《将VS2015更新为Update1后,Changeset注释策略中的内部错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
在某些情况下,Signal(Int,Int)不被识别为(Int,Int)元组

如何解决《在某些情况下,Signal(Int,Int)不被识别为(Int,Int)元组》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取所有maven依赖项,包括插件依赖项

如何解决《获取所有maven依赖项,包括插件依赖项》经验，为你挑选了0个好方法。 ... [详细]
程序员
IoC容器映射:单例与每次调用创建

如何解决《IoC容器映射:单例与每次调用创建》经验，为你挑选了0个好方法。 ... [详细]
程序员
在opencv-python中检测星形

如何解决《在opencv-python中检测星形》经验，为你挑选了0个好方法。 ... [详细]
程序员
Amazon RDS中的lower_case_table_names设置

如何解决《AmazonRDS中的lower_case_table_names设置》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么出口/进口申报必须在2015年达到顶级水平？

如何解决《为什么出口/进口申报必须在2015年达到顶级水平？》经验，为你挑选了1个好方法。 ... [详细]
程序员
chrome webview中出现"不支持的ABI"错误

如何解决《chromewebview中出现"不支持的ABI"错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用$ rootscope显示和隐藏

如何解决《使用$rootscope显示和隐藏》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用python中的openpyxl读取存储在sharepoint位置的xlsx？

如何解决《使用python中的openpyxl读取存储在sharepoint位置的xlsx？》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法使用python子进程模块使用*运行shell命令

如何解决《无法使用python子进程模块使用*运行shell命令》经验，为你挑选了1个好方法。 ... [详细]
程序员
熊猫改变了数据帧结构

如何解决《熊猫改变了数据帧结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Swift中执行一次代码只执行一次？

如何解决《如何在Swift中执行一次代码只执行一次？》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用SharedElement在活动转换中崩溃

如何解决《使用SharedElement在活动转换中崩溃》经验，为你挑选了0个好方法。 ... [详细]
程序员
在数组上使用AsEnumerable()有什么用？

如何解决《在数组上使用AsEnumerable()有什么用？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Swift UI测试 - 用户通知系统警报

如何解决《SwiftUI测试-用户通知系统警报》经验，为你挑选了0个好方法。 ... [详细]
程序员
ActiveRecord :: NoDatabaseError FATAL:数据库"db/development.postgresql"不存在

如何解决《ActiveRecord::NoDatabaseErrorFATAL:数据库"db/development.postgresql"不存在》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851323

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章