获取整个索引的总术语频率(Elasticsearch)

作者：mobiledu2402851203 | 2023-09-07 08:00

如何解决《获取整个索引的总术语频率(Elasticsearch)》经验，为你挑选了1个好方法。

我试图计算整个索引(术语收集频率)中特定术语出现的总次数.我试图通过使用术语向量来实现这一点,但是这仅限于单个文档.即使在指定文档中存在术语的情况下,响应似乎最大化在某个doc_count(在field_statistics中),这使我怀疑它的准确性.

请求:

http://myip:9200/clinicaltrials/trial/AVmk-ky6XMskTDwIwpih/_termvectors?term_statistics=true

这里使用的文档ID是"AVmk-ky6XMskTDwIwpih",尽管术语统计不应该特定于文档.

响应:

这就是我对其中一个领域的"癌症"一词所得到的:

 "cancer" : {
      "doc_freq" : 5297,
      "ttf" : 10587,
      "term_freq" : 1,
      "tokens" : [
        {
          "position" : 15,
          "start_offset" : 115,
          "end_offset" : 121
        }
      ]
    },

如果我总计所有字段的ttf,我得到18915.但是,"癌症"的实际总术语频率实际上是542829.这使我相信它将term_vector统计数据限制为索引中的文档子集.

这里的任何建议将不胜感激.

1> groo..：

我相信您需要根据elasticsearch 文档将term_statistics设置为true ：

术语统计将term_statistics设置为true（默认为false）将返回

总术语频率（一个术语在所有文档中出现的频率）

文件频率（包含当前术语的文件数）

默认情况下，由于期限统计信息可能会对性能产生严重影响，因此不会返回这些值。

推荐阅读

程序员
覆盖UIImageView的图像getter/setter方法

如何解决《覆盖UIImageView的图像getter/setter方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Selenium浏览器窗口大小

如何解决《Selenium浏览器窗口大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是需要JDK 1.6的build-helper-maven-plugin的最新版本？

如何解决《什么是需要JDK1.6的build-helper-maven-plugin的最新版本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在aspnet5-rc1中禁用NTLM/Negotiate登录选项

如何解决《在aspnet5-rc1中禁用NTLM/Negotiate登录选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
react-bootstrap-table未对齐的标题列

如何解决《react-bootstrap-table未对齐的标题列》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Android Studio 2.0 Preview的FileOpUtils的ClassNotFoundException

如何解决《使用AndroidStudio2.0Preview的FileOpUtils的ClassNotFoundException》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从文件读取字节到byte []数组？

如何解决《如何从文件读取字节到byte[]数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在启用溢出检查的情况下编译和运行优化的Rust程序

如何解决《如何在启用溢出检查的情况下编译和运行优化的Rust程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的JS的任何方面是否会导致我的网站加载速度非常慢？

如何解决《我的JS的任何方面是否会导致我的网站加载速度非常慢？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django/python - 消除关于日期和时区意识的混淆

如何解决《Django/python-消除关于日期和时区意识的混淆》经验，为你挑选了0个好方法。 ... [详细]
程序员
MongoDB dataSize如何比storageSize更大？

如何解决《MongoDBdataSize如何比storageSize更大？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Microsoft Graph进行模拟

如何解决《使用MicrosoftGraph进行模拟》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何有效地运行多CPU内核的Django

如何解决《如何有效地运行多CPU内核的Django》经验，为你挑选了1个好方法。 ... [详细]
程序员
mutate()在使用美元符号运算符时尝试使用全局变量的值进行提取

如何解决《mutate()在使用美元符号运算符时尝试使用全局变量的值进行提取》经验，为你挑选了0个好方法。 ... [详细]
程序员
S3:如果由其他用户创建,则用户无法访问自己的s3存储桶中的对象

如何解决《S3:如果由其他用户创建,则用户无法访问自己的s3存储桶中的对象》经验，为你挑选了2个好方法。 ... [详细]
程序员
RxJS:结束三个承诺,区分结果

如何解决《RxJS:结束三个承诺,区分结果》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Zurb Foundation中禁用禁用按钮并启用验证

如何解决《在ZurbFoundation中禁用禁用按钮并启用验证》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么VS code中的问题匹配器不起作用？

如何解决《为什么VScode中的问题匹配器不起作用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python版本与json.dumps冲突

如何解决《python版本与json.dumps冲突》经验，为你挑选了1个好方法。 ... [详细]
程序员
递归放置的组件不显示

如何解决《递归放置的组件不显示》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851203

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章