我的公司在MS BI堆栈(SQL Server报告服务,分析服务和集成服务)上投入了大量资金,但我想看一下看似最受关注的开源替代Pentaho的内容.
我已经安装了一个版本,并且我非常轻松地完成了它.这很好.但我还没有时间开始将它用于实际工作以彻底了解包装.
你们有没有任何关于Pentaho与MS BI的利弊有什么见解,或者这些比较的任何链接?
非常感激!
我在路径上查看了多个Bi堆栈,以便从Business Objects中获取.我的很多评论都是偏好.这两套工具都非常出色.有些事情是我喜欢巧克力软糖布朗尼冰淇淋而不是纯巧克力.
Pentaho有一些非常聪明的人与他们合作,但微软一直在资金充足且计划周密的道路上.请记住,MS仍然是数据库市场的弱者.甲骨文在这里是王道.为了具有竞争力,MS在购买数据库时已经赠送了很多好东西并被迫重新发明他们的平台几次.我知道这不是关于数据库的,但数据库之争导致MS为了增加堆栈价值而放弃了很多东西.
1.)平台
SQL服务器不能在Unix或Linux上运行,因此它们会自动排除在这个市场之外.Windows与现在的某些版本或Unix大致相同.Windows非常便宜,现在运行得非常好.它给我带来了与Linux一样多的麻烦.
2.)OLAP
分析服务在2005年(当前是2008年)在2000版本上进行了重新设计.这是一个超过2000年的强大的命令.一旦你变大,pentaho(蒙德里安)并不那么快.它也很少有功能.它非常好,但工具的方式较少.两者都支持Excel作为esscential的平台.MS版本更强大.
3.)ETL
MS - DTS已被SSIS取代.再次,大规模的速度,力量和能力的增加.它控制任何和所有数据移动或程序控制.如果它不能这样做,你可以在Powershell中编写一个脚本.与2008年发布的Informatica相同.Pentaho - 比过去好多了.没有我想要的那么快,但我可以做我想做的一切.
4.)仪表板
Pentaho改进了这一点.开发有点不舒服和不友好,但MS确实没有真正的等价物.
5.)报告
MS报告非常强大,但并不是很难使用.我现在很喜欢它,但一开始就讨厌它,直到我知道它好一点.我一直在使用水晶报告,MS报告构建器功能更强大.在MS中很容易做一些艰难的事情,但做一些简单的事情要困难一些.Pentaho有点笨拙.我可能根本不喜欢它.我发现它太复杂了.我希望它更像是Crystal报表生成器或MS报表生成器,但它更像是jasper.我觉得很难.这可能是一种偏好.
6.)临时
MS - 这是我真正的赢家.我与我的用户测试了它,他们立即爱上了MS用户报告构建器.最重要的是它不仅易于使用,而且具有生产力.Pentaho - 很好但很老派.它使用更典型的基于向导的模型并具有强大的工具,但我讨厌它.它是一个很好的工具,但是我们已经从这种风格转变,没有人想回去.与logiXML相同的问题.界面运行良好,但与我们使用12年的情况相比并没有太大变化.
http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+of+Interactive+Reporting
有一些有经验的人可以让Pentaho真正运行良好,我只是发现MS套件更有效率.
警告 - 有很多站点列出了SSIS的众多缺陷,错误和烦恼.不确定为什么SSIS在帖子中名列前茅 - 但在你打赌它的项目之前,看看人们在博客圈中要说些什么.从我的经验来看,大约20:1的咆哮声与SSIS的可怕性有多大关系 - 我也同意,目前正在寻找任何替代方案.
这里有好消息?我没有尝试Pentaho但是计划检查它.我是一名经验丰富的MS BI顾问,自1998年以来一直使用它.SSIS非常快速且非常强大,但批评很明显.我发现了SSIS的以下问题:
(1)很难调试,你会得到一些神秘的错误,这些错误可能不会给你任何关于问题究竟是什么和在哪里的暗示.
(2)根据之前的评论,这是最糟糕的开发环境!我不知道他们在想什么.
(a)创建一个包含100或更多列的表,并在其上放置合并连接.现在回过头来尝试更新合并连接(比如拉一个新列).在合并连接上单击"确定"以保存更改后,即使在最快的计算机上也可能需要几分钟.我有一个巨大的数据流,有很多广泛的记录和许多合并连接.向数据流添加一列需要半天以上.我更新了一个合并连接,然后必须去做其他事情并在5-10分钟后再回来查看是否完成了.微软对此的回应是将您的软件包分解为多个软件包,将数据放在表格或二进制文件之间.好吧,如果你要在所有步骤之间使用磁盘,那么你可能在SQL中完成了所有工作!ETL工具的主要目的之一是将所有这些内容存储在内存中并避免磁盘I/O.
(b)设计师有时会彻底崩溃,失去你上次保存后的所有工作(我现在因为这个而在睡眠中做ctrl-S)
(c)我必须找出一个hack并在Excel中生成SSIS包XML以获得广泛的记录.我有一个医疗保健客户端,其中600多列记录是常见的.如果您尝试在SSIS中定义具有600列的文件格式,则必须一次一个地键入每个列!即使是MS访问,您也可以将电子表格中的布局剪切并粘贴到文件布局中,而不是SSIS.所以我必须从布局生成XML并将XML代码粘贴到包中的正确位置.这种丑陋的方式,但它节省了整天的工作和很多错误.
(d)与(c)类似,如果您需要修剪所有列,并且您已经说了600多个,请猜猜是什么?在派生列组件中,您必须键入trim(column1)600次以上!我现在在SQL查询中执行这样的所有简单转换以获取数据,因为可以从Excel工作表轻松生成.
(e)有许多古怪的东西,组件变得不可见,有时你打开包装,所有组件都完全重新排列不连贯.
(f)FTP功能,可能是ETL中最常见的东西之一,功能很弱,只支持无人使用的普通FTP.现在每个人都使用SFTP,FTPS,https等...所以几乎每个实现都需要使用第三方推荐的行驱动文件传输应用程序包.
(g)尝试使用CYA,类似于Windows Vista中的荒谬安全性,微软已经非常难以将SSIS包从一个环境推广到另一个环境.它默认为"使用用户密钥加密敏感信息"这一愚蠢的事情,这意味着它必须在您将其移动到的环境中的同一帐户下运行,作为您开发它的环境,这种情况很少发生.有更好的配置方法,但它总是试图恢复到这种完全无用的安全保护.
(h)最后,大多数问题现在都出现在第3版中,这清楚地表明微软没有计划修复它们.
(i)调试并不像其他语言那么容易.
SSIS仍然有很多好处,但并非没有一些严重的痛苦.