如何在MySQL中有效地找到重复的blob行？

作者：乐韵答题 | 2023-09-02 14:57

如何解决《如何在MySQL中有效地找到重复的blob行？》经验，为你挑选了1个好方法。

我有一张表格

CREATE TABLE data
{
   pk INT PRIMARY KEY AUTO_INCREMENT,
   dt BLOB
};

它在blob列中有大约160,000行和大约2GB的数据(平均每个blob 14kb).另一个表在此表中有外键.

像3000个blob这样的东西是相同的.所以我想要的是一个查询,它将给我一个重新映射表,允许我删除重复项.

天真的方法在30-40k行上花了大约一个小时:

SELECT a.pk, MIN(b.pk) 
    FROM data AS a 
    JOIN data AS b
  ON a.dt=b.dt
  WHERE b.pk < a.pk
  GROUP BY a.pk;

出于其他原因,我碰巧有一个具有blob大小的表:

CREATE TABLE sizes
(
   fk INT,  // note: non-unique
   sz INT
   // other cols
);

通过为sz构建fk和另一个的索引,直接查询需要大约24秒,每行50k行:

SELECT da.pk,MIN(db.pk) 
  FROM data AS da
  JOIN data AS db
  JOIN sizes AS sa
  JOIN sizes AS sb
  ON
        sa.size=sb.size
    AND da.pk=sa.fk
    AND db.pk=sb.fk
  WHERE
        sb.fk

然而,这是在da(数据表)上进行全表扫描.鉴于命中率应该相当低,我认为索引扫描会更好.考虑到这一点,添加了第三个数据副本作为第5个连接来获得它,并且丢失了大约3秒.

好的问题是:我会比第二次选择好得多吗？如果是这样,怎么样？

一个必然结果是:如果我有一个表,其中键列的使用非常繁重,但其余部分应该很少使用,我是否会更好地添加该表的另一个连接以鼓励索引扫描与完整表扫描？



#mysql@irc.freenode.net上的Xgc指出,添加一个像大小但具有唯一约束的实用程序表fk可能会有很大帮助.一些有趣的触发器和什么不可能使它甚至不坏以保持最新.


1> Baget..：
您始终可以为数据使用散列函数(MD5或SHA1),然后比较散列.

问题是你是否可以在数据库中保存哈希值？

推荐阅读

程序员
如何在golang中执行linux内置命令

如何解决《如何在golang中执行linux内置命令》经验，为你挑选了1个好方法。 ... [详细]
程序员
javascript-slice（-1）中slice的用途是什么

如何解决《javascript-slice（-1）中slice的用途是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在4.1中的弹出窗口中选择列表视图中的行但在android 5.0中工作

如何解决《无法在4.1中的弹出窗口中选择列表视图中的行但在android5.0中工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在CSS中纵向和横向对齐？

如何解决《如何在CSS中纵向和横向对齐？》经验，为你挑选了0个好方法。 ... [详细]
程序员
从SQL数据库读取时如何指定字段数据类型

如何解决《从SQL数据库读取时如何指定字段数据类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
Golang:在哪里调用接口方法？

如何解决《Golang:在哪里调用接口方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用jasmine对karma运行超过10次测试会导致:"错误:您的某些测试会重新加载整页!"

如何解决《使用jasmine对karma运行超过10次测试会导致:"错误:您的某些测试会重新加载整页!"》经验，为你挑选了0个好方法。 ... [详细]
程序员
在引导中的spring安全过滤器链之前调用过滤器

如何解决《在引导中的spring安全过滤器链之前调用过滤器》经验，为你挑选了1个好方法。 ... [详细]
程序员
以下Scala代码有什么问题？

如何解决《以下Scala代码有什么问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在spritekit中创建垂直滚动菜单？

如何解决《如何在spritekit中创建垂直滚动菜单？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android Web视图显示白屏

如何解决《AndroidWeb视图显示白屏》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将div中的元素居中？

如何解决《如何将div中的元素居中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015 - 在程序包管理器控制台中停止进程

如何解决《VisualStudio2015-在程序包管理器控制台中停止进程》经验，为你挑选了0个好方法。 ... [详细]
程序员
我们可以选择在sklearn中使用什么决策树算法吗？

如何解决《我们可以选择在sklearn中使用什么决策树算法吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用matplotlib平滑imshow情节

如何解决《使用matplotlib平滑imshow情节》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将资源文件打包到可运行的jar中

如何解决《如何将资源文件打包到可运行的jar中》经验，为你挑选了1个好方法。 ... [详细]
程序员
ERR Slot xxx已经忙了(Redis :: CommandError)

如何解决《ERRSlotxxx已经忙了(Redis::CommandError)》经验，为你挑选了1个好方法。 ... [详细]
程序员
需要帮助识别此代码中使用的"覆盖方法"模式

如何解决《需要帮助识别此代码中使用的"覆盖方法"模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
android:ellipsize ="end"和android:maxEms无效

如何解决《android:ellipsize="end"和android:maxEms无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
Delphi 2009:组件对象属性默认值

如何解决《Delphi2009:组件对象属性默认值》经验，为你挑选了1个好方法。 ... [详细]

乐韵答题

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章