6赞

elasticsearch-py扫描并滚动以返回所有文档

作者：谢谢巷议 | 2023-06-13 20:44

如何解决《elasticsearch-py扫描并滚动以返回所有文档》经验，为你挑选了1个好方法。

我使用elasticsearch-py连接到包含300多万个文档的ES数据库.我想返回所有文档,以便我可以抽象数据并将其写入csv.我能够使用以下代码轻松完成10个文档(默认返回).

es=Elasticsearch("glycerin")
query={"query" : {"match_all" : {}}}
response= es.search(index="_all", doc_type="patent", body=query)

for hit in response["hits"]["hits"]:
  print hit

不幸的是,当我尝试实现扫描和滚动时,我可以获得所有问题.我尝试了两种不同的方法但没有成功.

方法1:

scanResp= es.search(index="_all", doc_type="patent", body=query, search_type="scan", scroll="10m")  
scrollId= scanResp['_scroll_id']

response= es.scroll(scroll_id=scrollId, scroll= "10m")
print response

在此输入图像描述之后scroll/它给出滚动id然后结束?scroll=10m (Caused by : ''))

方法2:

query={"query" : {"match_all" : {}}}
scanResp= helpers.scan(client= es, query=query, scroll= "10m", index="", doc_type="patent", timeout="10m")

for resp in scanResp:
    print "Hiya"

如果我在for循环之前打印出scanResp,我得到了.因此,我相对肯定我以某种方式弄乱了我的卷轴,但我不知道在哪里或如何解决它.

结果: 在此输入图像描述再次,scroll/它给出滚动ID后,然后结束?scroll=10m (Caused by : ''))

我尝试增加传输类的Max重试次数,但这并没有什么区别.我非常感谢任何有关如何解决此问题的见解.

注意:我的ES位于同一网络上的远程桌面上.

1> chrstahl89..：

python扫描方法正在生成对其余api的GET调用.它试图通过http发送你的scroll_id.这里最可能的情况是你的scroll_id太大而无法通过http发送,所以你看到这个错误,因为它没有返回任何响应.

因为scroll_id根据您拥有的分片数量而增长,所以最好使用POST并在请求中发送JSON中的scroll_id.这样你就可以解决它对于http调用来说太大的限制.

事实上这就是错误的来源.事实证明他们已经修复了一段时间,但是如此简单的pip安装--update elasticsearch是问题的官方答案.[make Elasticsearch.scroll POST滚动ID](https://github.com/elasticsearch/elasticsearch-py/pull/28)

推荐阅读

程序员
std :: transform命令保证

如何解决《std::transform命令保证》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用python将opencv图像传输到ffmpeg

如何解决《使用python将opencv图像传输到ffmpeg》经验，为你挑选了1个好方法。 ... [详细]
程序员
序列化UTC时间c#

如何解决《序列化UTC时间c#》经验，为你挑选了0个好方法。 ... [详细]
程序员
模型中的Laravel 5.1 bool属性在模型类中加入时返回空数组

如何解决《模型中的Laravel5.1bool属性在模型类中加入时返回空数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
等待使用异步方法的Task.Run不会在正确的线程上抛出异常

如何解决《等待使用异步方法的Task.Run不会在正确的线程上抛出异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有可能将一个clojure矢量解构为最后两个项目,其余的？

如何解决《是否有可能将一个clojure矢量解构为最后两个项目,其余的？》经验，为你挑选了2个好方法。 ... [详细]
程序员
不使用Marshmallow调用Spinner onItemSelected

如何解决《不使用Marshmallow调用SpinneronItemSelected》经验，为你挑选了0个好方法。 ... [详细]
程序员
清除所有setIntervals

如何解决《清除所有setIntervals》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Visual Studio 2015中将c#csproj编译为exe - 错误CS0579

如何解决《如何在VisualStudio2015中将c#csproj编译为exe-错误CS0579》经验，为你挑选了1个好方法。 ... [详细]
程序员
RxSwift MVVM如何使用项目管理器设置视图模型？

如何解决《RxSwiftMVVM如何使用项目管理器设置视图模型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用3to2

如何解决《如何使用3to2》经验，为你挑选了1个好方法。 ... [详细]
程序员
对staticMetaObject的未定义引用

如何解决《对staticMetaObject的未定义引用》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++有没有订购哈希？

如何解决《C++有没有订购哈希？》经验，为你挑选了0个好方法。 ... [详细]
程序员
React Native - MapView - 带有自定义图像的注释

如何解决《ReactNative-MapView-带有自定义图像的注释》经验，为你挑选了1个好方法。 ... [详细]
程序员
防止WebPack重命名Bootstrap CSS类名？

如何解决《防止WebPack重命名BootstrapCSS类名？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么readdir之后stat不工作？

如何解决《为什么readdir之后stat不工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
附加JSON数组时无法调用未定义的方法“ push”

如何解决《附加JSON数组时无法调用未定义的方法“push”》经验，为你挑选了1个好方法。 ... [详细]
程序员
从运行时卸载/释放/删除React Native View

如何解决《从运行时卸载/释放/删除ReactNativeView》经验，为你挑选了0个好方法。 ... [详细]
程序员
Heroku的AssetSync gem的替代品

如何解决《Heroku的AssetSyncgem的替代品》经验，为你挑选了0个好方法。 ... [详细]
程序员
Rnd()只返回数组中的一个变量

如何解决《Rnd()只返回数组中的一个变量》经验，为你挑选了1个好方法。 ... [详细]

谢谢巷议

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章