1赞

Scikit Learn TfidfVectorizer:如何获得具有最高tf-idf分数的前n个术语

作者：地之南_816 | 2023-09-10 14:26

如何解决《ScikitLearnTfidfVectorizer:如何获得具有最高tf-idf分数的前n个术语》经验，为你挑选了1个好方法。

我正在研究关键字提取问题.考虑一般情况

tfidf = TfidfVectorizer(tokenizer=tokenize, stop_words='english')

t = """Two Travellers, walking in the noonday sun, sought the shade of a widespreading tree to rest. As they lay looking up among the pleasant leaves, they saw that it was a Plane Tree.

"How useless is the Plane!" said one of them. "It bears no fruit whatever, and only serves to litter the ground with leaves."

"Ungrateful creatures!" said a voice from the Plane Tree. "You lie here in my cooling shade, and yet you say I am useless! Thus ungratefully, O Jupiter, do men receive their blessings!"

Our best blessings are often the least appreciated."""

tfs = tfidf.fit_transform(t.split(" "))
str = 'tree cat travellers fruit jupiter'
response = tfidf.transform([str])
feature_names = tfidf.get_feature_names()

for col in response.nonzero()[1]:
    print(feature_names[col], ' - ', response[0, col])

这给了我

  (0, 28)   0.443509712811
  (0, 27)   0.517461475101
  (0, 8)    0.517461475101
  (0, 6)    0.517461475101
tree  -  0.443509712811
travellers  -  0.517461475101
jupiter  -  0.517461475101
fruit  -  0.517461475101

这很好.对于任何新文档,有没有办法获得最高tfidf得分的前n项？

1> hume..：

你必须做一些歌曲和舞蹈,以使矩阵成为numpy数组,但这应该做你正在寻找的:

feature_array = np.array(tfidf.get_feature_names())
tfidf_sorting = np.argsort(response.toarray()).flatten()[::-1]

n = 3
top_n = feature_array[tfidf_sorting][:n]

这给了我:

array([u'fruit', u'travellers', u'jupiter'], 
  dtype='

这个argsort电话真的是有用的,这里是它的文档.我们必须这样做,[::-1]因为argsort只支持从小到大的排序.我们调用flatten将尺寸减小到1d,以便排序的索引可用于索引1d特征数组.请注意,包含调用flatten仅在您一次测试一个文档时才有效.

另外,另一方面,你的意思是什么tfs = tfidf.fit_transform(t.split("\n\n"))？否则,多行字符串中的每个术语都被视为"文档".\n\n相反,使用意味着我们实际上正在查看4个文档(每行一个),这在考虑tfidf时更有意义.

推荐阅读

程序员
使用原型[javascript]的未定义结果

如何解决《使用原型[javascript]的未定义结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
当我在rubymine中为我的项目添加ruby SDK时出错

如何解决《当我在rubymine中为我的项目添加rubySDK时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
python 2.7：函数中的'newline'

如何解决《python2.7：函数中的'newline'》经验，为你挑选了1个好方法。 ... [详细]
程序员
在使用gradle编译android库时如何禁止警告？

如何解决《在使用gradle编译android库时如何禁止警告？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Notepad ++中的[[:alpha:]]也匹配中文单词？

如何解决《为什么Notepad++中的[[:alpha:]]也匹配中文单词？》经验，为你挑选了1个好方法。 ... [详细]
程序员
按特定值对python中的JSON进行排序

如何解决《按特定值对python中的JSON进行排序》经验，为你挑选了0个好方法。 ... [详细]
程序员
GitHub：无法加载最新的提交信息

如何解决《GitHub：无法加载最新的提交信息》经验，为你挑选了0个好方法。 ... [详细]
程序员
删除列表中字符串的所有扩展名

如何解决《删除列表中字符串的所有扩展名》经验，为你挑选了0个好方法。 ... [详细]
程序员
检查pandas Series是否至少有一个项大于一个值

如何解决《检查pandasSeries是否至少有一个项大于一个值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在where子句上使用mysql boolean

如何解决《在where子句上使用mysqlboolean》经验，为你挑选了2个好方法。 ... [详细]
程序员
Aurelia导航栏虚拟机不工作

如何解决《Aurelia导航栏虚拟机不工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Stax Parser将巨大的xml文件> 10GB拆分成小块

如何解决《使用StaxParser将巨大的xml文件>10GB拆分成小块》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何通过sql查询更改wordpress数据库中的url永久链接

如何解决《如何通过sql查询更改wordpress数据库中的url永久链接》经验，为你挑选了1个好方法。 ... [详细]
程序员
一个补码架构上的负零行为？

如何解决《一个补码架构上的负零行为？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python是基于堆栈的意思是什么？

如何解决《python是基于堆栈的意思是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Delphi 7中调用.net 4.0构建的dll

如何解决《在Delphi7中调用.net4.0构建的dll》经验，为你挑选了1个好方法。 ... [详细]
程序员
你如何在Swift函数中放置一个guard语句？

如何解决《你如何在Swift函数中放置一个guard语句？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何以编程方式在xiaomi中启用我的应用程序的自动启动

如何解决《如何以编程方式在xiaomi中启用我的应用程序的自动启动》经验，为你挑选了2个好方法。 ... [详细]
程序员
便携式Android Studio

如何解决《便携式AndroidStudio》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么没有dscanf()？

如何解决《为什么没有dscanf()？》经验，为你挑选了1个好方法。 ... [详细]

地之南_816

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章