所以,我一直在热切关注Hadoop,说实话我很着迷,事情并没有变得更酷.
我唯一的小问题是我是一个C#开发人员,而且是Java.
这并不是说我不了解Java,因为我正在寻找Hadoop.net或NHadoop或者包含Google MapReduce方法的.NET项目.有谁知道吗?
您是否看过使用Hadoop的流媒体?
我一直在python中使用它:-).
我开始看到异构方法通常是最好的,看起来其他人也在做同样的事情.
如果你看一下像协议缓冲区或facebook的节俭这样的项目,你会发现有时候最好使用另一种语言编写的应用程序并用你喜欢的语言构建粘合剂.
请参阅http://research.microsoft.com/en-us/projects/dryadlinq/default.aspx或http://msdn.microsoft.com/en-us/library/dd179423.aspx
最近,MySpace发布了他们的.NET MapReduce框架Qizmt作为开源,所以这也是这个领域的潜在竞争者.
我在这里的问题中回答了你的问题
在源头说这里:
微软放弃了其替代方案(Dryad),转而支持Hadoop.明年,他们将发布带有Hadoop集成的MS SQL Server 2012.正如我们所说,Azure和Windows Sever支持正在开发中.
它将于2012年上半年上市.
Hadoop是排名第一的BigData平台,即使是Oracle正在采用它,也将受到开源和专有源(Java,.Net,Python,......)的支持.
如果您正在开发某些东西,那么您应该等待.Net平台.
有关可能的内容的更多信息,请点击此处
我会说DryadLinq是我们.NET民众对Hadoop最接近的东西.但这取决于你想要使用hadoop.如果您正在寻找优化的自我维护分布式文件(DFS)系统,那么DryadLINQ不是您想要的.它与DFS类似,但您必须手动构建分区并分配每个分区.
话虽这么说,如果你正在寻找的Hadoop的分布式执行方面比DryadLINQ真的很棒(不,我不隶属于MS).只要您拥有Microsoft HPC群集设置,就可以轻松使用DryadLINQ.
您编写的代码实际上只是直接的LINQ代码,除了执行LINQ之外,IEnumerable
您必须执行它PartitionedTable
(自构建分布式数据结构).
DryadLINQ的真正优点在于开发算法时的快速周转时间(尝试,测试,调整,重复).您只需编写LINQ代码进行计算,DryadLINQ将负责整个分布式执行部分.这是我遇到的最自然的模拟,它使得为分布式处理编写代码就像为单个进程处理编写代码一样.