当前位置:  开发笔记 > 数据库 > 正文

Solr DataImportHandler的Chunked UrlDataSource

如何解决《SolrDataImportHandler的ChunkedUrlDataSource》经验,为你挑选了1个好方法。

我正在考虑将我的数据源分块以便将优化数据导入到solr中,并且想知道是否可以使用将数据分块的主URL.

例如文件1可能有


  
  
  
  
  
  

每个块网址都会导致类似的内容


   
   
   
   

我正在处理5亿多条记录,因此我认为数据需要分块以避免内存问题(在使用SQLEntityProcessor时遇到这种情况).我还想避免提出超过500万的网络请求,因为我认为这可能会变得昂贵



1> Marty Trenou..:

由于互联网上缺少示例,我想我会发布我最终使用的内容



  
    
    
    
    
    
    
    

重要的是要注意我使用指定下一页上有更多内容并提供下一页的URL.这与DataImportHandlers的Solr文档一致.请注意,文档指定分页Feed应该告诉系统它有更多以及在哪里获得下一批.


    
    
        
            
            
            
            
        
    

注意$ hasMore和$ nextUrl字段.您可能希望放置超时.我还建议允许指定页面大小(它有助于使用tweeking设置来获得最佳处理速度).我使用四核Xeon处理器和32GB内存的单一服务器上的多核(3)solr实例索引@约12.5K记录/秒.

分页结果的应用程序使用与存储数据的SQL服务器相同的系统.当我们最终对solr服务器进行负载均衡时,我也会通过开始和停止位置来最小化配置更改....

推荐阅读
TXCWB_523
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有