我正在执行范围扫描,它给了我500k记录.如果我设置scan.setCaching(100000)
它只需不到一秒钟,但如果scan.setCaching(100000)
没有设置它需要将近38秒.
如果我设置scan.setBlockCache(false)
和scan.setCaching(100000)
会发生什么?这些行是否会被缓存?
我在第一次扫描后丢弃了操作系统缓存,但扫描记录的时间没有变化.为什么?
那我该如何检查读取性能呢?
Scan.setCaching
用词不当.它应该被称为类似的东西Scan.setPrefetch
.setCaching
实际上指定每个RPC将向regionserver传输多少行.如果您setCaching(1)
每次打电话都使用,则next()
支付往返于regionserver的往返费用.将其设置为更大的数字的缺点是您需要为客户端支付额外的内存,并且可能正在获取您不会使用的行,例如,如果在达到特定数量的行后停止扫描或在找到特定值后.
Scan.setBlockCache
意味着像钱德拉指出的完全不同的东西.它基本上指示regionserver不将任何数据从此Scan中提取到HBase BlockCache,后者是MemStore的单独内存池.请注意,MemStores用于写入,而BlockCache用于读取,而这两个内存是完全分开的.HBase目前不使用BlockCache作为回写缓存.您可以使用hfile.block.cache.size
配置设置来控制块缓存的大小hbase-site.xml
.同样,您可以通过hbase.regionserver.global.memstore.size
设置控制MemStore的总池大小.
setBlockCache(false)
如果您正在进行全表扫描,并且不想刷新块缓存中的当前工作集,则可能需要使用.否则,如果您正在扫描经常使用的数据,那么最好不要setBlockCache
单独使用.
Hbase有两种类型的缓存结构- memory store
和block cache
。
内存存储被实现为MemStore,用于读取的缓存是块缓存。
从HDFS读取数据块时,会将其缓存在BlockCache中。相邻数据的后续读取仅从BlockCache提供。
因此,当您手动设置scan.set Block Cache(false)then时,它将停止缓存从hdfs读取的行。
scan.set-caching(100000)是与扫描仪有关的客户端优化。因此它仍然可以正常工作