有效存储7.300.000.000行

作者：依然-狠幸福 | 2023-08-29 10:13

如何解决《有效存储7.300.000.000行》经验，为你挑选了3个好方法。

您将如何解决以下存储和检索问题？

每天(365天/年)将添加大约2.000.000行,每行包含以下信息:

id(唯一行标识符)

entity_id(取值介于1和2.000.000之间)

date_id(每天增加一个 - 将取1到3.650之间的值(十年:1*365*10))

value_1(取值介于1和1.000.000之间)

value_2(取值介于1和1.000.000之间)

entity_id与date_id相结合是唯一的.因此,每个实体和日期最多只能有一行添加到表中.数据库必须能够保存10年的每日数据(7.300.000.000行(3.650*2.000.000)).

上面描述的是写模式.读取模式很简单:所有查询都将在特定的entity_id上进行.即检索描述entity_id = 12345的所有行.

不需要事务支持,但存储解决方案必须是开源的.理想情况下我想使用MySQL,但我愿意接受建议.

现在 - 您将如何解决所描述的问题？

更新:我被要求详细说明读写模式.写入表将每天一批完成,新的2M条目将一次性添加.读取将连续进行,每秒读取一次.

1> S.Lott..：

"现在 - 你将如何解决所描述的问题？"

用简单的平面文件.

这就是原因

"所有查询都将在特定的entity_id上进行.即检索描述entity_id = 12345的所有行."

你有2.000.000个实体.基于实体编号的分区:

level1= entity/10000
level2= (entity/100)%100
level3= entity%100

每个数据文件都是 level1/level2/level3/batch_of_data

然后,您可以读取目录的给定部分中的所有文件以返回样本进行处理.

如果有人想要一个关系数据库,那么将给定entity_id的文件加载到数据库中供他们使用.

编辑日期数字.

该date_id/ entity_id独特的规则是不是东西,有来处理.这是(a)对文件名的简单强加和(b)与查询无关.

在date_id"利添利"并不意味着什么-有没有查询,所以没有必要重命名任何东西.本date_id应只是成长过程中没有从时代日期界.如果要清除旧数据,请删除旧文件.

由于没有查询依赖date_id,因此无需任何操作.它可以是所有重要的文件名.

要date_id在结果集中包含,请将其写入文件中,并使用文件每行中的其他四个属性.

在打开/关闭时编辑

对于写作,您必须保持文件打开.你定期刷新(或关闭/重新打开),以确保东西真正进入磁盘.

作者的架构有两种选择.

有一个"编写者"进程来整合来自各种源的数据.如果查询相对频繁,这将非常有用.您支付在写入时合并数据的费用.

同时打开几个文件进行写入.查询时,将这些文件合并为一个结果.这有用的是查询比较少见.您需要支付在查询时合并数据的费用.

2> vartec..：

使用分区.使用您的读取模式,您希望通过entity_id散列进行分区.

3> Simon..：

您可能想看看这些问题:

大型主键:超过10亿行MySQL + InnoDB？

大型MySQL表

就个人而言,我还考虑计算你的行宽,让你知道你的表有多大(根据第一个链接中的分区注释).

HTH,

小号

推荐阅读

程序员
Python/Django:RelatedObjectDoesNotExist:Cart没有用户

如何解决《Python/Django:RelatedObjectDoesNotExist:Cart没有用户》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL选择列以字母开头的位置

如何解决《SQL选择列以字母开头的位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
套接字accept()后无法获取返回值

如何解决《套接字accept()后无法获取返回值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在CakePHP 3中放置自定义PHP类的位置？

如何解决《在CakePHP3中放置自定义PHP类的位置？》经验，为你挑选了1个好方法。 ... [详细]
程序员
JS flie是什么

如何解决《JSflie是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何避免LLVM的支持CommandLine泄漏库参数？

如何解决《如何避免LLVM的支持CommandLine泄漏库参数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ElasticSearch:如何在一个或多个索引中的所有类型的任何字段中搜索值？

如何解决《ElasticSearch:如何在一个或多个索引中的所有类型的任何字段中搜索值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在swift 2.0中处理连续多次尝试

如何解决《如何在swift2.0中处理连续多次尝试》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法恢复/删除/更新NuGet包,因为上述版本不再可用

如何解决《无法恢复/删除/更新NuGet包,因为上述版本不再可用》经验，为你挑选了2个好方法。 ... [详细]
程序员
'is'运算符与非缓存整数意外地运行

如何解决《'is'运算符与非缓存整数意外地运行》经验，为你挑选了2个好方法。 ... [详细]
程序员
服务工作者正在缓存文件但从未触发获取事件

如何解决《服务工作者正在缓存文件但从未触发获取事件》经验，为你挑选了2个好方法。 ... [详细]
程序员
Hadoop中有多少种类型的InputFormat？

如何解决《Hadoop中有多少种类型的InputFormat？》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取电子表格中AWS S3存储桶中所有对象的链接？

如何解决《获取电子表格中AWSS3存储桶中所有对象的链接？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该在什么情况下使用Ebean或EbeanServer？

如何解决《我应该在什么情况下使用Ebean或EbeanServer？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不触发浏览器SSL检查的情况下重定向www流量？

如何解决《如何在不触发浏览器SSL检查的情况下重定向www流量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pycharm调试器 - 帧不可用

如何解决《Pycharm调试器-帧不可用》经验，为你挑选了1个好方法。 ... [详细]
程序员
退出儿童过程

如何解决《退出儿童过程》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用+ =但不附加列表时的UnboundLocalError

如何解决《使用+=但不附加列表时的UnboundLocalError》经验，为你挑选了1个好方法。 ... [详细]
程序员
将R自动安装SystemRequirements:对于尚未拥有该程序的用户

如何解决《将R自动安装SystemRequirements:对于尚未拥有该程序的用户》经验，为你挑选了0个好方法。 ... [详细]
程序员
indexOf在javascript中的混乱

如何解决《indexOf在javascript中的混乱》经验，为你挑选了1个好方法。 ... [详细]

依然-狠幸福

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章