博客
关于我
Spark安装部署
阅读量:179 次
发布时间:2019-02-28

本文共 2334 字,大约阅读时间需要 7 分钟。

安装Scala和Spark的详细指南

一、下载Scala和Spark

在开始安装之前,我们需要下载Scala和Spark的安装包。通过终端访问服务器,可以使用Wget命令下载相应的软件包。

# 下载Scalawget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz# 下载Sparkwget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

二、安装Scala

安装Scala后,我们需要将其添加到系统的环境变量中,这样才能在终端中使用Scala命令。

  • 解压Scala安装包

    使用tar命令解压刚下载的Scala安装包。

    tar -zxvf scala-2.11.8.tgz
  • 配置环境变量

    在终端中设置Scala的环境变量,确保PATH包含Scala的安装目录。

    export SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin
  • 验证Scala安装

    在终端中运行Scala命令,验证是否正确安装。

    scala

    输出示例:

    Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152).Type in expressions for evaluation. Or try :help.scala>
  • 三、安装Spark

    安装Spark后,我们需要配置环境变量并验证其正确运行。

  • 解压Spark安装包

    使用tar命令解压刚下载的Spark安装包。

    tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
  • 配置环境变量

    在终端中设置Spark的环境变量,确保PATH包含Spark的安装目录。

    export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
  • 配置Spark-env.sh脚本

    根据Spark文档,编辑spark-env.sh文件,设置必要的环境变量。

    export JAVA_HOME=/opt/jdk1.8export PATH=$PATH:$JAVA_HOME/binexport SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/binexport SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
  • 四、启动Spark集群

    完成Spark的安装后,我们需要启动集群并验证其运行状态。

  • 启动集群

    使用start-all.sh脚本启动Master节点和Worker节点。

    ./start-all.sh

    输出示例:

    starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.outlocalhost:\Slocalhost: Kernel \r on an \mlocalhost: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
  • 验证节点状态

    使用jps命令查看当前运行的Java进程,确认Master和Worker节点已启动。

    jps

    输出示例:

    4128 Jps4049 Worker3992 Master
  • 五、测试Spark环境

    验证Spark环境是否正确配置并运行,确保集群能够正常工作。

  • 运行Spark Shell

    使用spark-shell命令启动Spark Shell,验证集群的连接状态。

    spark-shell

    输出示例:

    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).
  • 读取文件并处理

    通过Spark Shell读取本地文件并进行基本处理,验证Spark集群的功能。

    cat test.loghello gojavac mysql""""

    或者读取HDFS文件:

    var file = sc.textFile("hdfs://master/test.log")file: org.apache.spark.rdd.RDD[String] = hdfs://master/test.log MapPartitionsRDD[3] at textFile at

    集群状态可以通过Web UI查看,访问地址为 http://master:4040

  • 通过以上步骤,您可以成功安装并配置Scala和Spark环境,并验证其运行状态。

    转载地址:http://ssej.baihongyu.com/

    你可能感兴趣的文章
    Oracle 创建 DBLink 的方法
    查看>>
    oracle 创建job
    查看>>
    oracle 创建一个用户,只能访问指定的对象
    查看>>
    oracle 创建双向备份,Materialized View 物化视图实现 Oracle 表双向同步
    查看>>
    oracle 创建字段自增长——两种实现方式汇总
    查看>>
    Oracle 升级10.2.0.5.4 OPatch 报错Patch 12419392 Optional component(s) missing 解决方法
    查看>>
    oracle 去重
    查看>>
    oracle 可传输的表空间:rman
    查看>>
    Oracle 启动监听命令
    查看>>
    Oracle 启动阶段 OPEN
    查看>>
    Oracle 在Drop表时的Cascade Constraints
    查看>>
    Oracle 在Sqlplus 执行sql脚本文件。
    查看>>
    Oracle 如何处理CLOB字段
    查看>>
    oracle 学习
    查看>>
    oracle 定义双重循环例子
    查看>>
    ORACLE 客户端工具连接oracle 12504
    查看>>
    Oracle 客户端连接时报ORA-01019错误总结
    查看>>
    oracle 导出sql数据库表结构,使用sql developer 导出Oracle数据库中的表结构
    查看>>
    oracle 嵌套表 例子,Oracle之嵌套表(了解)
    查看>>
    Oracle 常用命令
    查看>>