当前位置:  开发笔记 > 运维 > 正文

HBase扫描性能

如何解决《HBase扫描性能》经验,为你挑选了2个好方法。

我正在执行范围扫描,它给了我500k记录.如果我设置scan.setCaching(100000)它只需不到一秒钟,但如果scan.setCaching(100000)没有设置它需要将近38秒.

如果我设置scan.setBlockCache(false)scan.setCaching(100000)会发生什么?这些行是否会被缓存?

我在第一次扫描后丢弃了操作系统缓存,但扫描记录的时间没有变化.为什么?

那我该如何检查读取性能呢?



1> b4hand..:

Scan.setCaching用词不当.它应该被称为类似的东西Scan.setPrefetch.setCaching实际上指定每个RPC将向regionserver传输多少行.如果您setCaching(1)每次打电话都使用,则next()支付往返于regionserver的往返费用.将其设置为更大的数字的缺点是您需要为客户端支付额外的内存,并且可能正在获取您不会使用的行,例如,如果在达到特定数量的行后停止扫描或在找到特定值后.

Scan.setBlockCache意味着像钱德拉指出的完全不同的东西.它基本上指示regionserver不将任何数据从此Scan中提取到HBase BlockCache,后者是MemStore的单独内存池.请注意,MemStores用于写入,而BlockCache用于读取,而这两个内存是完全分开的.HBase目前不使用BlockCache作为回写缓存.您可以使用hfile.block.cache.size配置设置来控制块缓存的大小hbase-site.xml.同样,您可以通过hbase.regionserver.global.memstore.size设置控制MemStore的总池大小.

setBlockCache(false)如果您正在进行全表扫描,并且不想刷新块缓存中的当前工作集,则可能需要使用.否则,如果您正在扫描经常使用的数据,那么最好不要setBlockCache单独使用.



2> Chandra kant..:

Hbase有两种类型的缓存结构- memory storeblock cache
内存存储被实现为MemStore,用于读取的缓存是块缓存
从HDFS读取数据块时,会将其缓存在BlockCache中。相邻数据的后续读取仅从BlockCache提供。
因此,当您手动设置scan.set Block Cache(false)then时,它将停止缓存从hdfs读取的行。
scan.set-caching(100000)是与扫描仪有关的客户端优化。因此它仍然可以正常工作


setCaching会影响客户端行为,而setBlockCache会影响区域服务器端行为,因此您对setCaching不会产生任何影响的理由是不正确的。
推荐阅读
落单鸟人
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有