分析vs not_analyzed:存储大小

作者：依然-狠幸福 | 2023-09-09 15:25

如何解决《分析vsnot_analyzed:存储大小》经验，为你挑选了1个好方法。

我最近使用ElasticSearch 2.开始当我已了解分析 VS not_analyzed在映射,not_analyzed应在存储更好(https://www.elastic.co/blog/elasticsearch-storage-the-true-story-2.0和HTTPS ://www.elastic.co/blog/elasticsearch-storage-the-true-story).出于测试目的,我创建了一些索引,其中包含所有String字段(默认情况下),然后我创建了一些其他索引,其中所有字段都是not_analyzed,当我检查索引的大小并且我看到索引时出现了not_analyzed字符串大 40%!! 我在每个索引中插入相同的文档(35000个文档).

知道为什么会这样吗？我的文档是简单的JSON文档.我在每个文档中有60个字符串字段,我想将其设置为not_analyzed,我尝试将每个字段设置为未分析并创建动态模板.

我编辑添加映射,虽然我认为它没有什么特别之处:

    {
        "mappings": {
            "my_type" : {
                          "_ttl" : { "enabled" : true, "default" : "7d" },
                          "properties" : {
                                "field1" : {
                                    "properties" : {
                                        "field2" : {
                                            "type" : "string", "index" : "not_analyzed"
                                        }
                                        more not_analyzed String fields here
                                  ...
                              ...
                          ...
}

Peter Dixon-.. 6

not_analyzed字段仍然被编入索引.他们事先没有对它们进行任何转换("分析" - 用Lucene的说法).

举个例子:

(文件1)"快速的棕色狐狸跳过懒狗"

(Doc 2)"像狐狸一样懒惰"

标准分析器创建的简化发布列表(analyzed字符串字段的默认值- 标记化,小写,删除停用词):

"brown": [1]  
"dog": [1]  
"fox": [1,2]  
"jumped": [1]  
"lazy": [1,2]  
"over": [1] 
"quick": [1]

30个字符的字符串数据

由"index": "not_analyzed"以下内容创建的简化发布列表:

"The quick brown fox jumped over the lazy dog": [1]  
"Lazy like the fox": [2]

62个字符的字符串数据

分析导致输入被标记化并标准化,以便能够使用术语查找文档.

但结果是,文本单元被缩减为标准化术语(与整个字段相比not_analyzed),并且所有文档中的所有冗余(标准化)术语都折叠为单个逻辑列表,从而节省了通常所有的空间由重复的术语和停用词消耗.

1> Peter Dixon-..：

not_analyzed字段仍然被编入索引.他们事先没有对它们进行任何转换("分析" - 用Lucene的说法).

举个例子:

(文件1)"快速的棕色狐狸跳过懒狗"

(Doc 2)"像狐狸一样懒惰"

标准分析器创建的简化发布列表(analyzed字符串字段的默认值- 标记化,小写,删除停用词):

"brown": [1]  
"dog": [1]  
"fox": [1,2]  
"jumped": [1]  
"lazy": [1,2]  
"over": [1] 
"quick": [1]

30个字符的字符串数据

由"index": "not_analyzed"以下内容创建的简化发布列表:

"The quick brown fox jumped over the lazy dog": [1]  
"Lazy like the fox": [2]

62个字符的字符串数据

分析导致输入被标记化并标准化,以便能够使用术语查找文档.

推荐阅读

程序员
如何在Swift中删除AVPlayerViewController上的双击缩放功能

如何解决《如何在Swift中删除AVPlayerViewController上的双击缩放功能》经验，为你挑选了1个好方法。 ... [详细]
程序员
二进制运算符'&'不能应用于'SCNetworkReachabilityFlags'和'Int'类型的操作数

如何解决《二进制运算符'&'不能应用于'SCNetworkReachabilityFlags'和'Int'类型的操作数》经验，为你挑选了1个好方法。 ... [详细]
程序员
线性时间Euler的Totient函数计算

如何解决《线性时间Euler的Totient函数计算》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装Rcompression软件包时出错

如何解决《安装Rcompression软件包时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
渲染问题无法加载LayoutLib:

如何解决《渲染问题无法加载LayoutLib:》经验，为你挑选了1个好方法。 ... [详细]
程序员
公共与受保护的抽象类方法

如何解决《公共与受保护的抽象类方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么没有调用构造函数？

如何解决《为什么没有调用构造函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在IOS键盘顶部的键盘上添加完成按钮？

如何解决《如何在IOS键盘顶部的键盘上添加完成按钮？》经验，为你挑选了4个好方法。 ... [详细]
程序员
在两秒钟之后做一些事情

如何解决《在两秒钟之后做一些事情》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在python中找到facebook上的朋友的名字

如何解决《如何在python中找到facebook上的朋友的名字》经验，为你挑选了1个好方法。 ... [详细]
程序员
对于创建表查询，query.executeUpdate（）在hibernate中返回什么

如何解决《对于创建表查询，query.executeUpdate（）在hibernate中返回什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
从网络摄像头快速提取帧:C++和OpenCV与Matlab

如何解决《从网络摄像头快速提取帧:C++和OpenCV与Matlab》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将XBF文件添加到Visual Studio项目

如何解决《如何将XBF文件添加到VisualStudio项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
强制iOS iPhone youtube将播放器嵌入全屏

如何解决《强制iOSiPhoneyoutube将播放器嵌入全屏》经验，为你挑选了1个好方法。 ... [详细]
程序员
在VBScript中解析Html字符串(Not File)

如何解决《在VBScript中解析Html字符串(NotFile)》经验，为你挑选了0个好方法。 ... [详细]
程序员
mongoDB中单个字段的字符串或整数查询

如何解决《mongoDB中单个字段的字符串或整数查询》经验，为你挑选了0个好方法。 ... [详细]
程序员
什么是start_wqthread？它会影响UIMainThread吗？

如何解决《什么是start_wqthread？它会影响UIMainThread吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Scrapy背景下刮刀,履带和蜘蛛之间的区别

如何解决《Scrapy背景下刮刀,履带和蜘蛛之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过jquery查找特定的子div

如何解决《通过jquery查找特定的子div》经验，为你挑选了1个好方法。 ... [详细]
程序员
每次重新运行程序时,性能都会发生显着变化

如何解决《每次重新运行程序时,性能都会发生显着变化》经验，为你挑选了1个好方法。 ... [详细]

依然-狠幸福

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章