博客
关于我
Spark安装部署
阅读量:179 次
发布时间:2019-02-28

本文共 2334 字,大约阅读时间需要 7 分钟。

安装Scala和Spark的详细指南

一、下载Scala和Spark

在开始安装之前,我们需要下载Scala和Spark的安装包。通过终端访问服务器,可以使用Wget命令下载相应的软件包。

# 下载Scalawget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz# 下载Sparkwget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

二、安装Scala

安装Scala后,我们需要将其添加到系统的环境变量中,这样才能在终端中使用Scala命令。

  • 解压Scala安装包

    使用tar命令解压刚下载的Scala安装包。

    tar -zxvf scala-2.11.8.tgz
  • 配置环境变量

    在终端中设置Scala的环境变量,确保PATH包含Scala的安装目录。

    export SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin
  • 验证Scala安装

    在终端中运行Scala命令,验证是否正确安装。

    scala

    输出示例:

    Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152).Type in expressions for evaluation. Or try :help.scala>
  • 三、安装Spark

    安装Spark后,我们需要配置环境变量并验证其正确运行。

  • 解压Spark安装包

    使用tar命令解压刚下载的Spark安装包。

    tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
  • 配置环境变量

    在终端中设置Spark的环境变量,确保PATH包含Spark的安装目录。

    export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
  • 配置Spark-env.sh脚本

    根据Spark文档,编辑spark-env.sh文件,设置必要的环境变量。

    export JAVA_HOME=/opt/jdk1.8export PATH=$PATH:$JAVA_HOME/binexport SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/binexport SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
  • 四、启动Spark集群

    完成Spark的安装后,我们需要启动集群并验证其运行状态。

  • 启动集群

    使用start-all.sh脚本启动Master节点和Worker节点。

    ./start-all.sh

    输出示例:

    starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.outlocalhost:\Slocalhost: Kernel \r on an \mlocalhost: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
  • 验证节点状态

    使用jps命令查看当前运行的Java进程,确认Master和Worker节点已启动。

    jps

    输出示例:

    4128 Jps4049 Worker3992 Master
  • 五、测试Spark环境

    验证Spark环境是否正确配置并运行,确保集群能够正常工作。

  • 运行Spark Shell

    使用spark-shell命令启动Spark Shell,验证集群的连接状态。

    spark-shell

    输出示例:

    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).
  • 读取文件并处理

    通过Spark Shell读取本地文件并进行基本处理,验证Spark集群的功能。

    cat test.loghello gojavac mysql""""

    或者读取HDFS文件:

    var file = sc.textFile("hdfs://master/test.log")file: org.apache.spark.rdd.RDD[String] = hdfs://master/test.log MapPartitionsRDD[3] at textFile at

    集群状态可以通过Web UI查看,访问地址为 http://master:4040

  • 通过以上步骤,您可以成功安装并配置Scala和Spark环境,并验证其运行状态。

    转载地址:http://ssej.baihongyu.com/

    你可能感兴趣的文章
    Oracle——08PL/SQL简介,基本程序结构和语句
    查看>>
    Oracle——distinct的用法
    查看>>
    Oracle、MySQL、SQL Server架构大对比
    查看>>
    oracle下的OVER(PARTITION BY)函数介绍
    查看>>
    Oracle中DATE数据相减问题
    查看>>
    Oracle中merge into的使用
    查看>>
    oracle中sql查询上月、本月、上周、本周、昨天、今天的数据!
    查看>>
    oracle中sql的case语句运用--根据不同条件去排序!
    查看>>
    Oracle中Transate函数的使用
    查看>>
    oracle中关于日期问题的汇总!
    查看>>
    Oracle中常用的语句
    查看>>
    Oracle中序列的操作以及使用前对序列的初始化
    查看>>
    oracle中新建用户和赋予权限
    查看>>
    Oracle中的NVL,NVL2,NULLIF以及COALESCE函数使用
    查看>>
    Oracle中的rownum 和rowid的用法和区别
    查看>>
    oracle中的大小写、字符、dual、数字、处理、日期、函数、显/隐式、时间、条件表达式case、decode、to_date、to_char、sysdate
    查看>>
    oracle中表和视图的区别,oracle中常用表和视图
    查看>>