当前位置:  开发笔记 > 运维 > 正文

将Spark与Cassandra结合使用?

如何解决《将Spark与Cassandra结合使用?》经验,为你挑选了1个好方法。

在我们当前的基础架构中,我们使用Cassandra集群作为我们的后端数据库,并且通过Solr,我们使用Web UI为客户在必要时对我们的数据库执行读取查询.

我被要求将Spark视为未来可以实现的东西,但我很难理解它将如何改进我们目前的工作.

所以我的基本问题是:

1)Spark是否会取代Solr来查询数据库,就像用户在我们的网站上查找内容一样?

2)只是一个总的想法,什么类型的基础设施将是必要的,以改善我们的现状(5个Cassandra节点,所有这些节点也运行Solr).换句话说,我们很容易看到构建另一个只有Spark节点的集群?

3)Spark节点可以在与Cassandra相同的物理机器上运行吗?我猜这是一个坏主意,因为内存限制因为我对Spark的基本理解是它在内存中做了所有事情.

4)我可以用什么好的快速/基本资源来开始弄清楚Spark如何让我们受益?我可以访问Datastax Academy课程,所以我正在阅读这些课程,只是想知道是否还有其他任何可以帮助我的研究.

基本上,一旦我弄清楚它是什么,更重要的是我们可以如何利用我们的优势,我将开始玩一些测试实例,但我应该首先熟悉基础知识.



1> RussS..:

1)不,Spark是一个批处理系统,Solr是实时索引解决方案.solr的延迟将是次要的,Spark工作意味着需要几分钟(或更长时间).应该确实没有Spark可以替代Solr的情况.

2)我通常建议在同一台机器上运行C*和Spark的第二个数据中心.这将通过复制从第一个数据中心获取数据.

3)Spark不会在内存中做任何事情.根据您的使用情况,在与C*相同的机器上运行可能是个好主意.这可以允许从C*读取数据的位置,并在表扫描时间显着帮助.我通常还建议将Spark Executors和C*节点放在一起.

4)DS Academy 320课程可能是那里最好的资源.https://academy.datastax.com/courses/getting-started-apache-spark

推荐阅读
落单鸟人
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有