1赞

sklearn:TFIDF Transformer:如何获取文档中给定单词的tf-idf值

作者：牛尾巴2010 | 2023-09-09 12:21

如何解决《sklearn:TFIDFTransformer:如何获取文档中给定单词的tf-idf值》经验，为你挑选了2个好方法。

我使用sklean使用命令as计算文档中术语的TFIDF值

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(documents)
from sklearn.feature_extraction.text import TfidfTransformer
tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)
X_train_tf = tf_transformer.transform(X_train_counts)

X_train_tf是scipy稀疏形状矩阵

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(documents)
from sklearn.feature_extraction.text import TfidfTransformer
tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)
X_train_tf = tf_transformer.transform(X_train_counts)

输出为(2257,35788).如何在特定文档中获取TF-IDF？更具体地说,如何在给定文档中获取具有最大TF-IDF值的单词？

1> sud_..：

你可以使用sklean的TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
from scipy.sparse.csr import csr_matrix #need this if you want to save tfidf_matrix

tf = TfidfVectorizer(input='filename', analyzer='word', ngram_range=(1,6),
                     min_df = 0, stop_words = 'english', sublinear_tf=True)
tfidf_matrix =  tf.fit_transform(corpus)

上述tfidf_matix具有语料库中所有文档的TF-IDF值.这是一个很大的稀疏矩阵.现在,

feature_names = tf.get_feature_names()

这将为您提供所有令牌或n-gram或单词的列表.对于语料库中的第一个文档,

doc = 0
feature_index = tfidf_matrix[doc,:].nonzero()[1]
tfidf_scores = zip(feature_index, [tfidf_matrix[doc, x] for x in feature_index])

让我们打印,

for w, s in [(feature_names[i], s) for (i, s) in tfidf_scores]:
  print w, s

2> 小智..：

这是带有pandas库的Python 3中的另一个更简单的解决方案

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

vect = TfidfVectorizer()
tfidf_matrix = vect.fit_transform(documents)
df = pd.DataFrame(tfidf_matrix.toarray(), columns = vect.get_feature_names())
print(df)

推荐阅读

程序员
如何在工具栏android中为自定义字体设置标题

如何解决《如何在工具栏android中为自定义字体设置标题》经验，为你挑选了6个好方法。 ... [详细]
程序员
护照:允许注册姓名和电子邮件地址？(地方战略)

如何解决《护照:允许注册姓名和电子邮件地址？(地方战略)》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何开发一个自定义的UICollectionViewLayout,它具有与自定义单元格交错的列？

如何解决《如何开发一个自定义的UICollectionViewLayout,它具有与自定义单元格交错的列？》经验，为你挑选了1个好方法。 ... [详细]
程序员
std :: forward转发的重载函数

如何解决《std::forward转发的重载函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何清除C中数组的所有元素？

如何解决《如何清除C中数组的所有元素？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用ajax GET或POST方法将过去的数据发送到amazon lambda node.js函数

如何解决《如何使用ajaxGET或POST方法将过去的数据发送到amazonlambdanode.js函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Gmail从Excel发送电子邮件

如何解决《使用Gmail从Excel发送电子邮件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel 5渴望加载限制

如何解决《Laravel5渴望加载限制》经验，为你挑选了2个好方法。 ... [详细]
程序员
从API-viewDidLoad,viewWillAppear或viewDidAppear加载数据的最佳位置是什么？

如何解决《从API-viewDidLoad,viewWillAppear或viewDidAppear加载数据的最佳位置是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel 5.1 Eloquent ORM随机返回不正确的关系 - *主要更新*

如何解决《Laravel5.1EloquentORM随机返回不正确的关系-*主要更新*》经验，为你挑选了0个好方法。 ... [详细]
程序员
没有给出与所需的形式参数相对应的参数-.NET错误

如何解决《没有给出与所需的形式参数相对应的参数-.NET错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使<td>响应

如何解决《如何使<td>响应》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从IntelliJ IDEA向远程Spark集群提交代码

如何解决《如何从IntelliJIDEA向远程Spark集群提交代码》经验，为你挑选了0个好方法。 ... [详细]
程序员
"控制到达非空函数的结束",在枚举类型上使用完全处理的情况切换

如何解决《"控制到达非空函数的结束",在枚举类型上使用完全处理的情况切换》经验，为你挑选了1个好方法。 ... [详细]
程序员
比较数组对象是否相等

如何解决《比较数组对象是否相等》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Python Pandas中连接大量CSV文件(30,000)

如何解决《在PythonPandas中连接大量CSV文件(30,000)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在"if"中遇到"return"时不返回值的方法

如何解决《在"if"中遇到"return"时不返回值的方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
NoReverseMatch Django教程1.8第4章

如何解决《NoReverseMatchDjango教程1.8第4章》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在按钮内居中对齐离子图标？

如何解决《如何在按钮内居中对齐离子图标？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将大量自定义数据添加到jpg图像文件中

如何解决《将大量自定义数据添加到jpg图像文件中》经验，为你挑选了0个好方法。 ... [详细]

牛尾巴2010

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章