5赞

Python的集合之间的区别.Counter和nltk.probability.FreqDist

作者：刘美娥94662 | 2023-09-08 14:12

如何解决《Python的集合之间的区别.Counter和nltk.probability.FreqDist》经验，为你挑选了1个好方法。

我想计算文本语料库中单词的术语 - 频率.我一直在使用NLTK的word_tokenize,然后是probability.FreqDist一段时间才能完成.word_tokenize返回一个列表,该列表由FreqDist转换为频率分布.但是,我最近在集合(collections.Counter)中遇到了Counter函数,它似乎做了完全相同的事情.FreqDist和Counter都有一个most_common(n)函数,它返回n个最常用的单词.有谁知道这两者之间是否存在差异？一个比另一个快吗？是否存在可以工作而另一个不工作的情况？

1> alvas..：

nltk.probability.FreqDist是.的子类collections.Counter.

来自文档:

实验结果的频率分布.频率分布记录实验的每个结果发生的次数.例如,频率分布可用于记录文档中每个单词类型的频率.形式上,频率分布可以定义为从每个样本映射到样本作为结果发生的次数的函数.

继承是从代码中明确显示的,基本上,a Counter和a FreqDist的初始化没有区别,请参阅https://github.com/nltk/nltk/blob/develop/nltk/probability.py#L106

所以速度快,创造一个Counter并且FreqDist应该是一样的.速度的差异应该是微不足道的,但值得注意的是,开销可能是:

在解释器中定义类时的类的编译

鸭子打字的成本 .__init__()

主要区别在于FreqDist提供统计/概率自然语言处理(NLP)的各种功能,例如查找hapaxes.FreqDist扩展的完整功能列表Counter如下:

>>> from collections import Counter
>>> from nltk import FreqDist
>>> x = FreqDist()
>>> y = Counter()
>>> set(dir(x)).difference(set(dir(y)))
set(['plot', 'hapaxes', '_cumulative_frequencies', 'r_Nr', 'pprint', 'N', 'unicode_repr', 'B', 'tabulate', 'pformat', 'max', 'Nr', 'freq', '__unicode__'])

在使用时FreqDist.most_common(),它实际上使用的是父函数,Counter因此检索排序most_common列表的速度对于两种类型都是相同的.

就个人而言,当我只是想要检索计数时,我会使用collections.Counter.但是当我需要进行一些统计操作时,我要么使用,要么nltk.FreqDist将其转储Counter到pandas.DataFrame(请参阅将计数器对象转换为Pandas DataFrame).

推荐阅读

程序员
在three.js中映射一颗行星？

如何解决《在three.js中映射一颗行星？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在TCPDF中正确生成GS1-128(以前的EAN-128)条形码

如何解决《如何在TCPDF中正确生成GS1-128(以前的EAN-128)条形码》经验，为你挑选了1个好方法。 ... [详细]
程序员
在图像上渲染任意文本是否有任何安全隐患？

如何解决《在图像上渲染任意文本是否有任何安全隐患？》经验，为你挑选了1个好方法。 ... [详细]
程序员
GlusterFS或Ceph作为Hadoop的后端

如何解决《GlusterFS或Ceph作为Hadoop的后端》经验，为你挑选了1个好方法。 ... [详细]
程序员
副本集配置无效或我们不是它的成员,在kubernetes中运行

如何解决《副本集配置无效或我们不是它的成员,在kubernetes中运行》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Spring Boot中的application.yml中定义默认空值

如何解决《如何在SpringBoot中的application.yml中定义默认空值》经验，为你挑选了0个好方法。 ... [详细]
程序员
相当于Java 7中的map(来自haskell)

如何解决《相当于Java7中的map(来自haskell)》经验，为你挑选了1个好方法。 ... [详细]
程序员
将二进制值转换为十进制矩阵

如何解决《将二进制值转换为十进制矩阵》经验，为你挑选了1个好方法。 ... [详细]
程序员
Yii findAll()导致内存问题

如何解决《YiifindAll()导致内存问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何自动确定项目使用哪些PHP扩展？

如何解决《如何自动确定项目使用哪些PHP扩展？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么变量必须初始化？

如何解决《为什么变量必须初始化？》经验，为你挑选了2个好方法。 ... [详细]
程序员
从主机访问CUDA全局设备变量

如何解决《从主机访问CUDA全局设备变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
在设备上运行Cucumber,应用程序立即崩溃,错误:"写入fifo时出错.LunLoop :: Fifo :: NoReaderConfiguredError"

如何解决《在设备上运行Cucumber,应用程序立即崩溃,错误:"写入fifo时出错.LunLoop::Fifo::NoReaderConfiguredError"》经验，为你挑选了0个好方法。 ... [详细]
程序员
什么是java中的阻塞模式

如何解决《什么是java中的阻塞模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
批量preparedstatement与不同的SQL查询

如何解决《批量preparedstatement与不同的SQL查询》经验，为你挑选了1个好方法。 ... [详细]
程序员
创建组日历事件失败

如何解决《创建组日历事件失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
打开图层3根据矢量图层的范围使地图居中？

如何解决《打开图层3根据矢量图层的范围使地图居中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
elasticsearch按字符串字段的长度过滤

如何解决《elasticsearch按字符串字段的长度过滤》经验，为你挑选了1个好方法。 ... [详细]
程序员
Vectorize嵌套的for-loop和if语句

如何解决《Vectorize嵌套的for-loop和if语句》经验，为你挑选了0个好方法。 ... [详细]
程序员
用先前的非零值替换向量中的所有零

如何解决《用先前的非零值替换向量中的所有零》经验，为你挑选了4个好方法。 ... [详细]

刘美娥94662

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章