8赞

在处理给定的数据集时,如何为zlib'setDictionary'找到一个好的/最佳的字典？

作者：mobiledu2402851377 | 2023-08-12 14:01

如何解决《在处理给定的数据集时,如何为zlib'setDictionary'找到一个好的/最佳的字典？》经验，为你挑选了1个好方法。

我有一组(巨大的)类似的数据文件.该集合不断增长.单个文件的大小约为10K.每个文件都必须自己压缩.使用zlib库完成压缩,该库由java.util.zip.Deflater类使用.使用字典将字典传递给Deflate算法时setDictionary,我可以提高压缩率.

有没有办法(算法)找到'最佳'字典,即具有整体最佳压缩比的字典？

请参阅zlib手册

1> alecco..：

John Reiser 解释comp.compression:

对于字典:制作短子串的直方图,按收益排序(出现次数乘以压缩时保存的位数),并将最高支付子字符串放入字典中.例如,如果k是可以压缩的最短子串的长度(通常为3 == k或2 == k),则制作长度为k,1 + k,2 + k的所有子串的直方图,以及3 + K. 当然,将这些子串放入字典中有一些技巧,利用子串,重叠,更接近高地址端的短串等.

Linux内核使用类似的技术来压缩用于打印子例程调用堆栈的回溯的符号名称.请参阅文件scripts/kallsyms.c.例如,https://code.woboq.org/linux/linux/scripts/kallsyms.c.html

所述的zlib手册建议放置的最常见ocurrences在字典的末尾.

字典应该包含稍后可能在要压缩的数据中遇到的字符串(字节序列),最常用的字符串优选地放在字典的末尾.当要压缩的数据很短并且可以高精度地预测时,使用字典是最有用的; 然后可以比使用默认空字典更好地压缩数据.

这是因为LZ77具有滑动窗口算法,因此后续的子串将在您的数据流上比前几个更容易到达.

我会使用更高级别的语言生成字典,并且支持字符串.一个粗略的JavaScript示例:

var str = "The dictionary should consist of strings (byte sequences) that"
    + " are likely to be encountered later in the data to be compressed,"
    + " with the most commonly used strings preferably put towards the "
    + "end of the dictionary. Using a dictionary is most useful when the"
    + " data to be compressed is short and can be predicted with good"
    + " accuracy; the data can then be compressed better than with the "
    + "default empty dictionary.";
// Extract words, remove punctuation (extra: replace(/\s/g, " "))
var words = str.replace(/[,\;.:\(\)]/g, "").split(" ").sort();
var  wcnt = [], w = "", cnt = 0; // pairs, current word, current word count
for (var i = 0, cnt = 0, w = ""; i < words.length; i++) {
    if (words[i] === w) {
        cnt++; // another match
    } else {
        if (w !== "")
            wcnt.push([cnt, w]); // Push a pair (count, word)
        cnt = 1; // Start counting for this word
        w = words[i]; // Start counting again
    }
}
if (w !== "")
    wcnt.push([cnt, w]); // Push last word
wcnt.sort(); // Greater matches at the end
for (var i in wcnt)
    wcnt[i] = wcnt[i][1]; // Just take the words
var dict = wcnt.join("").slice(-70); // Join the words, take last 70 chars

然后dict是一串70个字符:

rdsusedusefulwhencanismostofstringscompresseddatatowithdictionarybethe

你可以在这里试试copy-paste-run (添加:"print(dict)")

这只是整个单词,而不是子串.还有一些方法可以重叠常见的子串以节省字典上的空间.

有没有办法"导出"通过压缩文件创建的字典,以便将其应用于后续文件,即自动"训练"字典？

@RustyX,您可以使用[infgen](https://github.com/madler/infgen)查看压缩数据的结构,并从中查看数据中最常引用的文字.使用自定义词典,您可以确保存在更长的匹配子序列并获得更好的压缩率.

推荐阅读

程序员
Python Dictionary获取Key的值

如何解决《PythonDictionary获取Key的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有双引号的正则表达式的ng-pattern无法正确转义

如何解决《具有双引号的正则表达式的ng-pattern无法正确转义》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Swift检测我的代码是否在WatchKit或iOS上运行？

如何解决《如何使用Swift检测我的代码是否在WatchKit或iOS上运行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在派生类的构造函数体中调用基础构造函数

如何解决《在派生类的构造函数体中调用基础构造函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么activerecord没有填充从create返回的项目中的自动递增列？

如何解决《为什么activerecord没有填充从create返回的项目中的自动递增列？》经验，为你挑选了0个好方法。 ... [详细]
程序员
UTF8与Latin1

如何解决《UTF8与Latin1》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么,对于整数向量x,为(x,"numeric")触发加载强制的附加S4方法？

如何解决《为什么,对于整数向量x,为(x,"numeric")触发加载强制的附加S4方法？》经验，为你挑选了0个好方法。 ... [详细]
程序员
numpy/scipy:经过一段时间后,让一个系列向另一个系列汇聚

如何解决《numpy/scipy:经过一段时间后,让一个系列向另一个系列汇聚》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django-Filer:如何在管理员之外调用上传小部件

如何解决《Django-Filer:如何在管理员之外调用上传小部件》经验，为你挑选了0个好方法。 ... [详细]
程序员
显示D3链接文本正面朝上

如何解决《显示D3链接文本正面朝上》经验，为你挑选了1个好方法。 ... [详细]
程序员
不完整的模式匹配此表达式

如何解决《不完整的模式匹配此表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用勾选/复选标记符号(✓)而不是无序列表中的项目符号？

如何解决《如何使用勾选/复选标记符号(✓)而不是无序列表中的项目符号？》经验，为你挑选了3个好方法。 ... [详细]
程序员
C malloc字符串

如何解决《Cmalloc字符串》经验，为你挑选了2个好方法。 ... [详细]
程序员
断言抛出磁带 - 节点

如何解决《断言抛出磁带-节点》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Access Query中创建日期列表

如何解决《在AccessQuery中创建日期列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
功能(e)和功能()之间的区别

如何解决《功能(e)和功能()之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
在pymongo中使用explain（“ executionStats”）进行查询

如何解决《在pymongo中使用explain（“executionStats”）进行查询》经验，为你挑选了1个好方法。 ... [详细]
程序员
animate.css:重复动画

如何解决《animate.css:重复动画》经验，为你挑选了1个好方法。 ... [详细]
程序员
从cookie创建和读取列表<>

如何解决《从cookie创建和读取列表<>》经验，为你挑选了0个好方法。 ... [详细]
程序员
这是代码中的一种僵局吗？

如何解决《这是代码中的一种僵局吗？》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851377

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章