2赞

Cassandra 3.0更新了SSTable格式

作者：雯颜哥_135 | 2023-09-08 16:32

如何解决《Cassandra3.0更新了SSTable格式》经验，为你挑选了1个好方法。

根据这个问题,Cassandra的存储格式在3.0中更新.

如果之前我可以使用cassandra-cli来查看SSTable是如何构建的,那就得到这样的结果:

[default@test] list phonelists;
-------------------
RowKey: scott
=> (column=, value=, timestamp=1374684062860000)
=> (column=phonenumbers:bill, value='555-7382', timestamp=1374684062860000)
=> (column=phonenumbers:jane, value='555-8743', timestamp=1374684062860000)
=> (column=phonenumbers:patricia, value='555-4326', timestamp=1374684062860000)
-------------------
RowKey: john
=> (column=, value=, timestamp=1374683971220000)
=> (column=phonenumbers:doug, value='555-1579', timestamp=1374683971220000)
=> (column=phonenumbers:patricia, value='555-4326', timestamp=137468397122

在最新版本的Cassandra中,内部正式会是什么样子？你能提供一个例子吗？

我可以使用什么实用程序以上面列出的方式查看Cassandra中表的内部表示,但是使用新的SSTable格式？

我在互联网上找到的所有内容都是分区标题如何存储列名,行存储聚类值以及没有重复值.

我该怎么看？

1> Andy Tolbert..：

在3.0之前,sstable2json是一个有用的工具,用于了解SSTables中数据的组织方式.这个功能目前还没有出现在cassandra 3.0中,但最终会有另一种选择.在此之前,我和Chris Lohfink 为Cassandra 3.0 开发了sstable2json(sstable-tools)的替代品,您可以使用它来了解数据的组织方式.有一些关于在CASSANDRA-7464中将其带入cassandra的讨论.

Cassandra和Cassandra 3.0旧版本之间的存储格式之间的关键区别在于,SSTable以前是分区及其单元格的表示(由其聚类和列名称标识),而对于Cassandra 3.0,SSTable现在表示分区及其行.

您可以通过访问此博客文章更详细地了解这些更改,这些更改的主要开发人员可以很好地解释详细信息.

您将看到的最大好处是,在一般情况下,您的数据大小将缩小(在某些情况下会受到很大影响),因为CQL引入的大量开销已被某些关键增强功能所消除.

这是一个显示C*2和3之间差异的示例.

架构:

create keyspace demo with replication = {'class': 'SimpleStrategy', 'replication_factor': 1};
use demo;
create table phonelists (user text, person text, phonenumbers text, primary key (user, person));
insert into phonelists (user, person, phonenumbers) values ('scott', 'bill', '555-7382');
insert into phonelists (user, person, phonenumbers) values ('scott', 'jane', '555-8743');
insert into phonelists (user, person, phonenumbers) values ('scott', 'patricia', '555-4326');
insert into phonelists (user, person, phonenumbers) values ('john', 'doug', '555-1579');
insert into phonelists (user, person, phonenumbers) values ('john', 'patricia', '555-4326');

sstable2json C*2.2输出:

[
{"key": "scott",
 "cells": [["bill:","",1451767903101827],
           ["bill:phonenumbers","555-7382",1451767903101827],
           ["jane:","",1451767911293116],
           ["jane:phonenumbers","555-8743",1451767911293116],
           ["patricia:","",1451767920541450],
           ["patricia:phonenumbers","555-4326",1451767920541450]]},
{"key": "john",
 "cells": [["doug:","",1451767936220932],
           ["doug:phonenumbers","555-1579",1451767936220932],
           ["patricia:","",1451767945748889],
           ["patricia:phonenumbers","555-4326",1451767945748889]]}
]

sstable-tools toJson C*3.0输出:

[
  {
    "partition" : {
      "key" : [ "scott" ]
    },
    "rows" : [
      {
        "type" : "row",
        "clustering" : [ "bill" ],
        "liveness_info" : { "tstamp" : 1451768259775428 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-7382" }
        ]
      },
      {
        "type" : "row",
        "clustering" : [ "jane" ],
        "liveness_info" : { "tstamp" : 1451768259793653 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-8743" }
        ]
      },
      {
        "type" : "row",
        "clustering" : [ "patricia" ],
        "liveness_info" : { "tstamp" : 1451768259796202 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-4326" }
        ]
      }
    ]
  },
  {
    "partition" : {
      "key" : [ "john" ]
    },
    "rows" : [
      {
        "type" : "row",
        "clustering" : [ "doug" ],
        "liveness_info" : { "tstamp" : 1451768259798802 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-1579" }
        ]
      },
      {
        "type" : "row",
        "clustering" : [ "patricia" ],
        "liveness_info" : { "tstamp" : 1451768259908016 },
        "cells" : [
          { "name" : "phonenumbers", "value" : "555-4326" }
        ]
      }
    ]
  }
]

虽然输出较大(这更多是工具的结果).您可以看到的主要区别是:

数据现在是分区及其行(包括单元格)的集合,而不是分区及其单元格的集合.

时间戳现在位于行级别(liveness_info)而不是单元级别.如果某些行单元在其时间戳中有所区别,则新的存储引擎会执行增量编码以节省空间并关联单元级别的差异.这也包括TTL.您可以想象,如果您有许多非键列,则可以节省大量空间,因为时间戳不需要重复.

聚类信息(在这种情况下,我们聚集在'人'上)现在出现在行级而不是单元级,这节省了大量开销,因为聚类列值不必在单元级别.

我应该注意,在这个特定的示例数据案例中,新存储引擎的好处并没有完全实现,因为只有一个非聚类列.

此处未显示许多其他改进(例如存储行级范围逻辑删除的功能).

推荐阅读

程序员
PropTypes使用动态键检查对象

如何解决《PropTypes使用动态键检查对象》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何删除Microsoft Azure存储中的租用blob

如何解决《如何删除MicrosoftAzure存储中的租用blob》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Python中使用OpenCV Stitcher类？

如何解决《如何在Python中使用OpenCVStitcher类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
当用户在wpf中悬停时,我如何突出显示行？

如何解决《当用户在wpf中悬停时,我如何突出显示行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
InnerHTML无法正常工作

如何解决《InnerHTML无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
从app.config文件中读取

如何解决《从app.config文件中读取》经验，为你挑选了1个好方法。 ... [详细]
程序员
将JSON反序列化为Object时出错

如何解决《将JSON反序列化为Object时出错》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用class.ind()从整数因子中溢出整数？

如何解决《使用class.ind()从整数因子中溢出整数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular 2 - 显示来自promise的异步对象数据

如何解决《Angular2-显示来自promise的异步对象数据》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将bool列表折叠为整数列表

如何解决《如何将bool列表折叠为整数列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
从嵌套组件中使用RouterLink

如何解决《从嵌套组件中使用RouterLink》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么AndroidAsync断开时间这么久？

如何解决《为什么AndroidAsync断开时间这么久？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何干掉重复嵌套的HAML？

如何解决《如何干掉重复嵌套的HAML？》经验，为你挑选了1个好方法。 ... [详细]
程序员
bash中值的值

如何解决《bash中值的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
了解Word2Vec的Skip-Gram结构和输出

如何解决《了解Word2Vec的Skip-Gram结构和输出》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Spring-data-cassandra查询带有复合主键的表

如何解决《使用Spring-data-cassandra查询带有复合主键的表》经验，为你挑选了1个好方法。 ... [详细]
程序员
给定一个函数管道(foo,bar,baz)(1,2,3),你如何在javascript中实现它等同于baz(bar(foo(1,2,3))

如何解决《给定一个函数管道(foo,bar,baz)(1,2,3),你如何在javascript中实现它等同于baz(bar(foo(1,2,3))》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pytest - 没有测试

如何解决《Pytest-没有测试》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用别名调用特征方法

如何解决《如何使用别名调用特征方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何确定一个点是否高于或低于连接R点的线？

如何解决《如何确定一个点是否高于或低于连接R点的线？》经验，为你挑选了1个好方法。 ... [详细]

雯颜哥_135

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章