快速的基于磁盘的哈希表？

作者：家具销售_903 | 2023-08-31 12:39

如何解决《快速的基于磁盘的哈希表？》经验，为你挑选了3个好方法。

我有一组哈希(MD5的前64位,所以它们是非常随机分布的)我希望能够看到一个新的哈希是否在一个集合中,并将它添加到一个集合中.

集合不是太大,最大的将是数百万个元素,但是有数百个集合,所以我无法将它们全部保存在内存中.

到目前为止我有一些想法:

我试着将它全部保存在sqlite表中,但是一旦它无法适应内存中的所有内容,它就变得非常慢.

布隆过滤器听起来像是会有很高的错误率.我不介意微小的错误率(64位散列已经在4G元素集上发生了1次冲突),但错误率如1%则太高了.

保持文件中具有间隙的哈希的排序列表,并在没有足够的间隙时调整大小.哈希是均匀分布的,所以即使非常简单的方案也应该有效.

我错过了一些非常明显的东西吗任何提示如何实现良好的基于磁盘的哈希表？

1> taw..：

这是我最终使用的解决方案:

每套一个文件

文件包含2 ^ k个桶,每个256字节或32个8字节的条目

空条目刚刚清零(000 ...是一个有效的哈希值,但我并不关心2 ^ -64碰撞的可能性,如果一切都可以与哈希的本质相冲突).

每个哈希驻留在通过其前k位猜测的桶中

如果任何存储桶溢出,请将文件大小翻倍并拆分每个存储桶

一切都是通过mmap()访问的,而不是read()/ write()

它比sqlite快得令人难以置信,即使它是低级别的Perl代码,Perl实际上并不适用于高性能数据库.它不适用于任何比MD5分布更不均匀的东西,它假设一切都非常均匀,以保持实现简单.

我一开始尝试使用seek()/ sysread()/ syswrite(),而且速度很慢,mmap()版本真的要快得多.

2> Henrik Paul..：

我在描述您的确切问题/需求时遇到了一些麻烦,但它仍然让我想到了Git以及它如何在磁盘上存储SHA1引用:

获取给定哈希的十六进制字符串表示,例如" abfab0da6f4ebc23cb15e04ff500ed54".在哈希中键入两个第一个字符(ab在我们的例子中为" ")并将其放入目录中.然后,使用其余的(" fab0da6f4ebc23cb15e04ff500ed54"),创建文件,并将内容放入其中.

这样,通过自动索引,您可以在磁盘上获得相当不错的性能(取决于您的FS).此外,您可以直接访问任何已知的哈希,只需在两个第一个字符(" ./ab/fab0da[..]" 之后楔入目录分隔符)

如果我完全错过了球,我很抱歉,但运气好的话,这可能会给你一个想法.

3> David Schmit..：

听起来像Berkeley DB的工作.

推荐阅读

程序员
Django makemigrations错误

如何解决《Djangomakemigrations错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTTP标头值的可能类型

如何解决《HTTP标头值的可能类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Behave Python生成Junit输出报告

如何解决《如何使用BehavePython生成Junit输出报告》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在jQuery数据表上添加带有搜索图标的占位符文本

如何解决《如何在jQuery数据表上添加带有搜索图标的占位符文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
Grails/Groovy正则表达式 - 如何使用(？i)使所有内容不区分大小写？

如何解决《Grails/Groovy正则表达式-如何使用(？i)使所有内容不区分大小写？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flexbox,方形div的响应网格保持纵横比

如何解决《Flexbox,方形div的响应网格保持纵横比》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为UINavigation栏添加阴影效果

如何解决《如何为UINavigation栏添加阴影效果》经验，为你挑选了2个好方法。 ... [详细]
程序员
删除Django admin中的默认删除操作

如何解决《删除Djangoadmin中的默认删除操作》经验，为你挑选了4个好方法。 ... [详细]
程序员
遗留系统的CQRS

如何解决《遗留系统的CQRS》经验，为你挑选了1个好方法。 ... [详细]
程序员
在两个物理服务器中托管ASP.NET MVC项目

如何解决《在两个物理服务器中托管ASP.NETMVC项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
LXC和libcontainer之间的区别

如何解决《LXC和libcontainer之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么问题可以在互斥范围外调用std :: list/vector/map/deque :: empty()？

如何解决《什么问题可以在互斥范围外调用std::list/vector/map/deque::empty()？》经验，为你挑选了1个好方法。 ... [详细]
程序员
android animate()withEndAction()vs setListener()onAnimationEnd()

如何解决《androidanimate()withEndAction()vssetListener()onAnimationEnd()》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C/C++中自动检测OS

如何解决《在C/C++中自动检测OS》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用require()使用OpenSeadragon的示例

如何解决《使用require()使用OpenSeadragon的示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
ng-map拖动标记后获取地址

如何解决《ng-map拖动标记后获取地址》经验，为你挑选了1个好方法。 ... [详细]
程序员
调试时NodeJS没有响应(在VS代码中)

如何解决《调试时NodeJS没有响应(在VS代码中)》经验，为你挑选了2个好方法。 ... [详细]
程序员
R,如何将此操作矢量化

如何解决《R,如何将此操作矢量化》经验，为你挑选了1个好方法。 ... [详细]
程序员
结合多个Linq Where语句

如何解决《结合多个LinqWhere语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
Google Map:InvalidValueError:setLabel:不是字符串; 没有文字属性

如何解决《GoogleMap:InvalidValueError:setLabel:不是字符串;没有文字属性》经验，为你挑选了1个好方法。 ... [详细]

家具销售_903

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章