当前位置:  开发笔记 > 数据库 > 正文

用于查找重复条目的SQL(在组内)

如何解决《用于查找重复条目的SQL(在组内)》经验,为你挑选了2个好方法。

用于查找重复条目的SQL(在组内)

我有一个小问题,我不确定什么是解决它的最佳方法,因为我只能有限地访问数据库(Oracle)本身.在我们的表"EVENT"中,我们有大约160k个条目,每个EVENT都有一个GROUPID,而一个普通条目恰好有5个行具有相同的GROUPID.由于一个错误,我们目前得到了几个重复的条目(重复,所以10行而不是5行,只是一个不同的EVENTID.这可能会改变,所以它只是<> 5).我们需要过滤这些组的所有条目.

由于对数据库的访问受限,我们无法使用临时表,也无法向GROUPID列添加索引以使其更快.

我们可以使用此查询获取GROUPID,但我们需要第二个查询来获取所需的数据

select A."GROUPID"
from "EVENT" A
group by A."GROUPID"
having count(A."GROUPID") <> 5

一个解决方案是子选择:

select *
from "EVENT" A
where A."GROUPID" IN (
  select B."GROUPID"
  from "EVENT" B
  group by B."GROUPID"
  having count(B."GROUPID") <> 5
)

没有GROUPID和160k条目的索引,这需要太长时间.试着考虑一个可以处理这个问题的联接,但到目前为止找不到一个好的解决方案.

有人可以为此找到一个好的解决方案吗?

小编辑:我们这里没有100%的重复,因为每个条目仍然有一个唯一的ID,GROUPID也不是唯一的(这就是为什么我们需要使用"group by") - 或者我可能只是错过了一个简单的解决方案它:)

关于数据的小例子(我不想删除它,只是找到它)

EVENTID | GROUPID | TYPEID
123456    123       12
123457    123       145
123458    123       2612
123459    123       41
123460    123       238

234567    123       12
234568    123       145
234569    123       2612
234570    123       41
234571    123       238

它有更多的列,如时间戳等,但正如你已经看到的,除了EVENTID之外,一切都是相同的.

我们将更频繁地运行它进行测试,找到错误并检查它是否再次发生.



1> David Aldrid..:

分析查询要解决的典型问题:

select eventid,
       groupid,
       typeid
from   (
       Select eventid,
              groupid,
              typeid,
              count(*) over (partition by group_id) count_by_group_id
       from   EVENT
       )
where count_by_group_id <> 5



2> Walter Mitty..:

您可以使用连接而不是子查询来获得答案

select
    a.*
from
    event as a
inner join
    (select groupid
     from event
     group by groupid
     having count(*) <> 5) as b
  on a.groupid = b.groupid

这是从组中的行中获取所有信息的相当常见的方法.

与您建议的答案和其他答案一样,使用groupid索引可以更快地运行.由DBA来平衡使查询运行速度快得多的好处与维护另一个索引的成本之间的平衡.

如果DBA决定使用索引,请确保相应的人员了解其索引策略,而不是您编写的查询速度慢的方法.

推荐阅读
coco2冰冰
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有