当前位置:  开发笔记 > 编程语言 > 正文

CentOS6.4配置Spark-0.9集群

Spark是一个快速、通用的计算集群框架,它的内核使用Scala语言编写,它提供了Scala、Java和Python编程语言high-levelAPI,使用这些API能够非常容易地开发并行处理的应用程序。下面,我们通过搭建Spark集群计算环境,并进行简单地验证,来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序(用Scala,Spark默认提供的Shell

Spark是一个快速、通用的计算集群框架,它的内核使用Scala语言编写,它提供了Scala、Java和Python编程语言high-level API,使用这些API能够非常容易地开发并行处理的应用程序。
下面,我们通过搭建Spark集群计算环境,并进行简单地验证,来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序(用Scala,Spark默认提供的Shell环境可以直接输入Scala代码进行数据处理),我们都会觉得比Hadoop MapReduce计算框架要简单得多,而且,Spark可以很好地与HDFS进行交互(从HDFS读取数据,以及写数据到HDFS中)。

安装配置

  • 下载安装配置Scala
1 wget http://www.scala-lang.org/files/archive/scala-2.10.3.tgz
2 tar xvzf scala-2.10.3.tgz

在~/.bashrc中增加环境变量SCALA_HOME,并使之生效:

1 export SCALA_HOME=/usr/scala/scala-2.10.3
2 export PATH=$PATH:$SCALA_HOME/bin
  • 下载安装配置Spark

我们首先在主节点m1上配置Spark程序,然后将配置好的程序文件复制分发到集群的各个从结点上。下载解压缩:

1 wget http://d3kbcqa49mib13.cloudfront.net/spark-0.9.0-incubating-bin-hadoop1.tgz
2 tar xvzf spark-0.9.0-incubating-bin-hadoop1.tgz

在~/.bashrc中增加环境变量SPARK_HOME,并使之生效:

1 export SPARK_HOME=/home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1
2 export PATH=$PATH:$SPARK_HOME/bin

在m1上配置Spark,修改spark-env.sh配置文件:

1 cd /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/conf
2 cp spark-env.sh.template spark-
推荐阅读
360691894_8a5c48
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有