2赞

记录梳理算法

作者：拾味湖 | 2023-09-02 10:08

如何解决《记录梳理算法》经验，为你挑选了1个好方法。

我们得到这些包含16字节代码的~50GB数据文件,我想找到任何时间的1/2%或更多的代码.有什么方法可以一次性通过数据吗？

编辑:有大量代码 - 每个代码都可能不同.

EPILOGUE:我选择了Darius Bacon作为最佳答案,因为我认为最好的算法是对他所关联的多数元素的修改.大多数算法应该是可修改的,只能使用少量的内存 - 比如201代码,我认为会得到1/2%.基本上你只需要在流中计算最多201个不同的代码.一旦找到201个不同的代码,就会丢弃每个代码中的一个(从计数器中扣除1,忘记任何变为0的代码).最后,你最多下降了N/201次,因此任何出现次数超过的代码仍然存在.

但这是一个两遍算法,而不是一个.你需要第二次通过计算候选人的数量.实际上很容易看出,这个问题的任何解决方案都必须使用至少2次传递(你加载的第一批元素可能都不同,其中一个代码最终可能只有1/2%)

谢谢您的帮助!

1> Darius Bacon..：

Metwally等人,Efficient Computation of Frequent and Top-k Elements in Data Streams(2005).我在雅虎读到的一些其他相关论文是我现在找不到的; 但这看起来是一个好的开始.

编辑:啊,看看Brian Hayes这篇文章.由于Demaine等人的参考,它描绘了一个精确的算法.它只需很少的记忆即可完成,并产生一系列项目,包括您正在寻找的常用项目(如果存在的话).获得准确的计数需要(现在易处理的)第二遍.

推荐阅读

程序员
在Excel 2010 Powerpivot Addin中为SQL Server 2008 R2中的每个连接表键入密码

如何解决《在Excel2010PowerpivotAddin中为SQLServer2008R2中的每个连接表键入密码》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否可以删除列表列表中的项目而不会丢失原始引用？

如何解决《是否可以删除列表列表中的项目而不会丢失原始引用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从td标签BeautifulSoup Python获取href属性链接

如何解决《从td标签BeautifulSoupPython获取href属性链接》经验，为你挑选了1个好方法。 ... [详细]
程序员
按日期按日期在php中按日期排序数组

如何解决《按日期按日期在php中按日期排序数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
java中的键值对实现？

如何解决《java中的键值对实现？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Windows 8中将十六进制代码转换为颜色

如何解决《如何在Windows8中将十六进制代码转换为颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:Android Dex:找不到文件\ android-sdk-path\platform-tools\lib\dx.jar

如何解决《错误:AndroidDex:找不到文件\android-sdk-path\platform-tools\lib\dx.jar》经验，为你挑选了2个好方法。 ... [详细]
程序员
正则表达式提取部分字符串

如何解决《正则表达式提取部分字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何实现和定义接收

如何解决《如何实现和定义接收》经验，为你挑选了1个好方法。 ... [详细]
程序员
实体框架代码第一个通用数据库审计字段

如何解决《实体框架代码第一个通用数据库审计字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java将StringBuilder转换为CharBuffer

如何解决《Java将StringBuilder转换为CharBuffer》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否需要实现接口方法

如何解决《是否需要实现接口方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用vs2012部署mvc 3/4

如何解决《如何使用vs2012部署mvc3/4》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony2 - > Twig - > Form - > Field - > Set rendered = true

如何解决《Symfony2->Twig->Form->Field->Setrendered=true》经验，为你挑选了2个好方法。 ... [详细]
程序员
访问golang模板循环中的循环值

如何解决《访问golang模板循环中的循环值》经验，为你挑选了3个好方法。 ... [详细]
程序员
从Angular中的模块中删除指令

如何解决《从Angular中的模块中删除指令》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python线程中关闭侦听套接字

如何解决《在python线程中关闭侦听套接字》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring security 3 http-basic authentication-success-handler

如何解决《Springsecurity3http-basicauthentication-success-handler》经验，为你挑选了1个好方法。 ... [详细]
程序员
包含布局的根视图上的NullPointerException

如何解决《包含布局的根视图上的NullPointerException》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法将信号连接到main()内的函数

如何解决《无法将信号连接到main()内的函数》经验，为你挑选了1个好方法。 ... [详细]

拾味湖

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章