用于查找重复条目的SQL(在组内)

作者：coco2冰冰 | 2023-09-04 12:38

如何解决《用于查找重复条目的SQL(在组内)》经验，为你挑选了2个好方法。

用于查找重复条目的SQL(在组内)

我有一个小问题,我不确定什么是解决它的最佳方法,因为我只能有限地访问数据库(Oracle)本身.在我们的表"EVENT"中,我们有大约160k个条目,每个EVENT都有一个GROUPID,而一个普通条目恰好有5个行具有相同的GROUPID.由于一个错误,我们目前得到了几个重复的条目(重复,所以10行而不是5行,只是一个不同的EVENTID.这可能会改变,所以它只是<> 5).我们需要过滤这些组的所有条目.

由于对数据库的访问受限,我们无法使用临时表,也无法向GROUPID列添加索引以使其更快.

我们可以使用此查询获取GROUPID,但我们需要第二个查询来获取所需的数据

select A."GROUPID"
from "EVENT" A
group by A."GROUPID"
having count(A."GROUPID") <> 5

一个解决方案是子选择:

select *
from "EVENT" A
where A."GROUPID" IN (
  select B."GROUPID"
  from "EVENT" B
  group by B."GROUPID"
  having count(B."GROUPID") <> 5
)

没有GROUPID和160k条目的索引,这需要太长时间.试着考虑一个可以处理这个问题的联接,但到目前为止找不到一个好的解决方案.

有人可以为此找到一个好的解决方案吗？

小编辑:我们这里没有100%的重复,因为每个条目仍然有一个唯一的ID,GROUPID也不是唯一的(这就是为什么我们需要使用"group by") - 或者我可能只是错过了一个简单的解决方案它:)

关于数据的小例子(我不想删除它,只是找到它)

EVENTID | GROUPID | TYPEID 123456 123 12 123457 123 145 123458 123 2612 123459 123 41 123460 123 238 234567 123 12 234568 123 145 234569 123 2612 234570 123 41 234571 123 238
它有更多的列,如时间戳等,但正如你已经看到的,除了EVENTID之外,一切都是相同的.

我们将更频繁地运行它进行测试,找到错误并检查它是否再次发生.

1> David Aldrid..：

分析查询要解决的典型问题:

select eventid,
       groupid,
       typeid
from   (
       Select eventid,
              groupid,
              typeid,
              count(*) over (partition by group_id) count_by_group_id
       from   EVENT
       )
where count_by_group_id <> 5

2> Walter Mitty..：

您可以使用连接而不是子查询来获得答案

select
    a.*
from
    event as a
inner join
    (select groupid
     from event
     group by groupid
     having count(*) <> 5) as b
  on a.groupid = b.groupid

这是从组中的行中获取所有信息的相当常见的方法.

与您建议的答案和其他答案一样,使用groupid索引可以更快地运行.由DBA来平衡使查询运行速度快得多的好处与维护另一个索引的成本之间的平衡.

如果DBA决定使用索引,请确保相应的人员了解其索引策略,而不是您编写的查询速度慢的方法.

推荐阅读

程序员
WordPress重定向插件不区分大小写的正则表达式

如何解决《WordPress重定向插件不区分大小写的正则表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Javascript中的两个嵌套数组中获取一个对象

如何解决《从Javascript中的两个嵌套数组中获取一个对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将字段添加到log4j2的JSON日志

如何解决《如何将字段添加到log4j2的JSON日志》经验，为你挑选了0个好方法。 ... [详细]
程序员
从对象数组中删除重复项

如何解决《从对象数组中删除重复项》经验，为你挑选了1个好方法。 ... [详细]
程序员
numpy dot()和Python 3.5+矩阵乘法之间的区别@

如何解决《numpydot()和Python3.5+矩阵乘法之间的区别@》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将后缀@ gmail.com添加到名称列表中

如何解决《如何将后缀@gmail.com添加到名称列表中》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么QString和vector <unique_ptr <int >>在这里看起来不兼容？

如何解决《为什么QString和vector<unique_ptr<int>>在这里看起来不兼容？》经验，为你挑选了1个好方法。 ... [详细]
程序员
R Caret的时间片-窗口和地平线不清晰

如何解决《RCaret的时间片-窗口和地平线不清晰》经验，为你挑选了1个好方法。 ... [详细]
程序员
Makefile：如何在调用变量时增加变量？（bash中的var ++）

如何解决《Makefile：如何在调用变量时增加变量？（bash中的var++）》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Webpack中启用调试模式？

如何解决《如何在Webpack中启用调试模式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++识别模板参数

如何解决《C++识别模板参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
mongo3.0恢复失败,错误失败:恢复错误:插入错误:EOF

如何解决《mongo3.0恢复失败,错误失败:恢复错误:插入错误:EOF》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用redux-form和Fetch API进行服务器验证

如何解决《使用redux-form和FetchAPI进行服务器验证》经验，为你挑选了1个好方法。 ... [详细]
程序员
C中的反斜杠百分比是什么？

如何解决《C中的反斜杠百分比是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C中,在向函数发送指向结构的值时返回float会更改结构的值

如何解决《在C中,在向函数发送指向结构的值时返回float会更改结构的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将R闪亮的演示文稿导出为pdf或html

如何解决《如何将R闪亮的演示文稿导出为pdf或html》经验，为你挑选了0个好方法。 ... [详细]
程序员
显示:React Native中的内联等效

如何解决《显示:ReactNative中的内联等效》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在GLIBCXX版本的基础上找到C++ 11的功能

如何解决《如何在GLIBCXX版本的基础上找到C++11的功能》经验，为你挑选了0个好方法。 ... [详细]
程序员
JavaScript无法从PHP json_encode中找到JSON数据

如何解决《JavaScript无法从PHPjson_encode中找到JSON数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
R刷新的页面刷新按钮

如何解决《R刷新的页面刷新按钮》经验，为你挑选了1个好方法。 ... [详细]

coco2冰冰

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章