为Hadoop集群提供数据并使用该集群将数据输入Vertica/InfoBright数据仓库有什么意义?
所有这些供应商都在说"我们可以与Hadoop联系",但我不明白这是什么意思.在Hadoop中存储并转移到InfoBright有什么兴趣?为什么不将应用程序直接存储在Infobright/Vertica DW中?
谢谢 !
为何结合解决方案?Hadoop有一些很棒的功能(见下面的URL).这些功能虽然不包括允许业务用户运行快速分析.使用Infobright,在10秒内交付Hadoop需要30分钟到几小时的查询.
顺便说一句,你最初的问题并没有以MPP架构为前提,这是有充分理由的.Infobright的客户Liverail,AdSafe Media和InMobi等公司将IEE与Hadoop结合使用.
如果您注册了行业白皮书http://support.infobright.com/Support/Resource-Library/Whitepapers/,您将看到当前市场的视图,其中列出了四个建议的Hadoop用例.它由TechTarget的业务应用和架构组研究总监Wayne Eckerson于2011年9月撰写.
1)创建在线存档.
使用Hadoop,组织不必删除或将数据发送到离线存储; 他们可以通过添加商品服务器来无限期地保持在线,以满足存储和处理要求.Hadoop成为满足在线存档要求的低成本替代方案.
2)提供数据仓库.
组织还可以使用Hadoop来解析,集成和聚合大量Web或其他类型的数据,然后将其发送到数据仓库,临时和高级用户都可以使用熟悉的BI工具查询和分析数据.在这里,Hadoop成为一个ETL工具,用于在大量Web数据进入企业数据仓库之前处理它们.
3)支持分析.
大数据人群(即互联网开发人员)主要将Hadoop视为用于运行针对大量数据的分析计算的分析引擎.为了查询Hadoop,分析师目前需要用Java或其他语言编写程序,并了解MapReduce,这是一个用于编写分布式(或并行)应用程序的框架.这里的优点是分析人员在制定查询时不受SQL的限制.SQL不支持多种类型的分析,尤其是那些涉及行间计算的分析,这在Web流量分析中很常见.缺点是Hadoop是面向批处理的,不利于迭代查询.
4)运行报告.
但是,Hadoop的批量定位使其适合于执行定期报告.组织现在可以针对原始数据运行报告,而不是针对摘要数据运行报告,从而保证最准确的结果.