Elasticsearch搜索的结果多种多样

作者：大大炮 | 2023-09-10 15:07

如何解决《Elasticsearch搜索的结果多种多样》经验，为你挑选了1个好方法。

我使用流行度完成了一个复杂的查询,以使用Elasticsearch改进社交媒体文档的结果.查询工作得非常好,最重要的结果始终集中在查询和有趣的元素上.

但是它有一个问题,对于某些查询,第一个结果都来自同一个用户.

如果在更高的文档上检索到相同的用户,我想缩减文档.这样我希望结果更加多样化.

请注意,我不希望它们被删除,因为在某些情况下,查找同一用户的更多文档可能仍然很有趣,但我希望它们处于较低的位置.

任何人都可以建议一种方法来使它工作吗？

正如一些评论中所建议的,我更新了我的查询(简化版):

query = {"function_score": {
  "functions": [
    {"gauss": {"createdAt":
        {"origin": "now", "scale": "30d", "offset": "7d", "decay" :0.9 } 
    }},
    {"gauss": {"shares.last.twitter_retweets_log":
        {"origin": 4.52, "scale": 2.61, "decay" : 0.9} 
    }},
  ],
  "query": {"bool":{"must":[
    {"exists":{"field": "images"}},
    {"multi_match":{"query": "foo boo", fields:["text", "link.title"]}}
  ]}},
  "score_mode": "multiply"
}};

PS:一些可能有趣的文件,因为他们谈论多样性,但我不知道如何申请:

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-sampler-aggregation.html?q=sampler

https://lucene.apache.org/core/5_1_0/misc/org/apache/lucene/search/DiversifiedTopDocsCollector.html

MarkH.. 7

您可以将采样器与top_hits聚合耦合以获得多样化的结果.

{
    "query": {
        "match": {
            "query": "iphone"
        }
    },
    "size":0,
    "aggs": {
        "sample": {
            "sampler": {
                "shard_size": 200,
                "field" : "user.id"                
            },
            "aggs": {
                "diversifiedMatches": {
                    "top_hits": {
                        "size":10
                    }
                }
            }
        }
    }
}

有一些警告,例如:

1)重复数据删除是每个分片不是全局的

2)多样化领域的选择必须是单值领域

3)不支持分页

4)不支持对除分数以外的任何内容进行排序

解决上述问题很困难,需要内部昂贵/复杂的协调,以及客户关于何时何地可以重新引入"重复"结果的更多指导(第2页？第3页？有多少？)等.

1> MarkH..：

您可以将采样器与top_hits聚合耦合以获得多样化的结果.

{
    "query": {
        "match": {
            "query": "iphone"
        }
    },
    "size":0,
    "aggs": {
        "sample": {
            "sampler": {
                "shard_size": 200,
                "field" : "user.id"                
            },
            "aggs": {
                "diversifiedMatches": {
                    "top_hits": {
                        "size":10
                    }
                }
            }
        }
    }
}

有一些警告,例如:

1)重复数据删除是每个分片不是全局的

2)多样化领域的选择必须是单值领域

3)不支持分页

4)不支持对除分数以外的任何内容进行排序

解决上述问题很困难,需要内部昂贵/复杂的协调,以及客户关于何时何地可以重新引入"重复"结果的更多指导(第2页？第3页？有多少？)等.

推荐阅读

程序员
Laravel 5 PHPUnit - 路由返回了无效的JSON

如何解决《Laravel5PHPUnit-路由返回了无效的JSON》经验，为你挑选了0个好方法。 ... [详细]
程序员
MKMapView内存管理

如何解决《MKMapView内存管理》经验，为你挑选了1个好方法。 ... [详细]
程序员
字体很棒,没有使用webpack和cordova

如何解决《字体很棒,没有使用webpack和cordova》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果由jQuery添加,Google会看到rel = nofollow吗？

如何解决《如果由jQuery添加,Google会看到rel=nofollow吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android布局xml中的最大视图限制

如何解决《Android布局xml中的最大视图限制》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用ggplot2绘制SpatialLinesDataFrame

如何解决《使用ggplot2绘制SpatialLinesDataFrame》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这个Clojure程序在可变数组上工作这么慢？

如何解决《为什么这个Clojure程序在可变数组上工作这么慢？》经验，为你挑选了0个好方法。 ... [详细]
程序员
哦,看起来出了问题.请稍后再试.雅虎护照

如何解决《哦,看起来出了问题.请稍后再试.雅虎护照》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将double值转换为字符串值

如何解决《如何将double值转换为字符串值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Aurelia:同构？

如何解决《Aurelia:同构？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在zookeeper中删除非空的数据节点？

如何解决《如何在zookeeper中删除非空的数据节点？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在azure AD中为sharepoint在线创建应用程序

如何解决《在azureAD中为sharepoint在线创建应用程序》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用less.js获取更少的变量列表

如何解决《使用less.js获取更少的变量列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
Tomcat 8上的AntiResourceLocking

如何解决《Tomcat8上的AntiResourceLocking》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的SQL SELECT查询有什么问题？

如何解决《我的SQLSELECT查询有什么问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Oracle从类型号数组中获取distict值

如何解决《Oracle从类型号数组中获取distict值》经验，为你挑选了1个好方法。 ... [详细]
程序员
每次符号在值列表中更改时计算差异

如何解决《每次符号在值列表中更改时计算差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Javascript中使用reduce来对空数组和非空数组求和

如何解决《在Javascript中使用reduce来对空数组和非空数组求和》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么preg_match会返回一些空元素？

如何解决《为什么preg_match会返回一些空元素？》经验，为你挑选了0个好方法。 ... [详细]
程序员
不幸的是,相机已停止

如何解决《不幸的是,相机已停止》经验，为你挑选了1个好方法。 ... [详细]

大大炮

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章