博客
关于我
Spark安装部署
阅读量:179 次
发布时间:2019-02-28

本文共 2334 字,大约阅读时间需要 7 分钟。

安装Scala和Spark的详细指南

一、下载Scala和Spark

在开始安装之前,我们需要下载Scala和Spark的安装包。通过终端访问服务器,可以使用Wget命令下载相应的软件包。

# 下载Scalawget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz# 下载Sparkwget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

二、安装Scala

安装Scala后,我们需要将其添加到系统的环境变量中,这样才能在终端中使用Scala命令。

  • 解压Scala安装包

    使用tar命令解压刚下载的Scala安装包。

    tar -zxvf scala-2.11.8.tgz
  • 配置环境变量

    在终端中设置Scala的环境变量,确保PATH包含Scala的安装目录。

    export SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin
  • 验证Scala安装

    在终端中运行Scala命令,验证是否正确安装。

    scala

    输出示例:

    Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152).Type in expressions for evaluation. Or try :help.scala>
  • 三、安装Spark

    安装Spark后,我们需要配置环境变量并验证其正确运行。

  • 解压Spark安装包

    使用tar命令解压刚下载的Spark安装包。

    tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
  • 配置环境变量

    在终端中设置Spark的环境变量,确保PATH包含Spark的安装目录。

    export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
  • 配置Spark-env.sh脚本

    根据Spark文档,编辑spark-env.sh文件,设置必要的环境变量。

    export JAVA_HOME=/opt/jdk1.8export PATH=$PATH:$JAVA_HOME/binexport SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/binexport SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
  • 四、启动Spark集群

    完成Spark的安装后,我们需要启动集群并验证其运行状态。

  • 启动集群

    使用start-all.sh脚本启动Master节点和Worker节点。

    ./start-all.sh

    输出示例:

    starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.outlocalhost:\Slocalhost: Kernel \r on an \mlocalhost: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
  • 验证节点状态

    使用jps命令查看当前运行的Java进程,确认Master和Worker节点已启动。

    jps

    输出示例:

    4128 Jps4049 Worker3992 Master
  • 五、测试Spark环境

    验证Spark环境是否正确配置并运行,确保集群能够正常工作。

  • 运行Spark Shell

    使用spark-shell命令启动Spark Shell,验证集群的连接状态。

    spark-shell

    输出示例:

    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).
  • 读取文件并处理

    通过Spark Shell读取本地文件并进行基本处理,验证Spark集群的功能。

    cat test.loghello gojavac mysql""""

    或者读取HDFS文件:

    var file = sc.textFile("hdfs://master/test.log")file: org.apache.spark.rdd.RDD[String] = hdfs://master/test.log MapPartitionsRDD[3] at textFile at

    集群状态可以通过Web UI查看,访问地址为 http://master:4040

  • 通过以上步骤,您可以成功安装并配置Scala和Spark环境,并验证其运行状态。

    转载地址:http://ssej.baihongyu.com/

    你可能感兴趣的文章
    org.springframework.boot:spring boot maven plugin丢失---SpringCloud Alibaba_若依微服务框架改造_--工作笔记012
    查看>>
    SQL-CLR 类型映射 (LINQ to SQL)
    查看>>
    org.springframework.orm.hibernate3.support.OpenSessionInViewFilter
    查看>>
    org.springframework.orm.hibernate3.support.OpenSessionInViewFilter
    查看>>
    org.springframework.web.multipart.MaxUploadSizeExceededException: Maximum upload size exceeded
    查看>>
    org.tinygroup.serviceprocessor-服务处理器
    查看>>
    org/eclipse/jetty/server/Connector : Unsupported major.minor version 52.0
    查看>>
    org/hibernate/validator/internal/engine
    查看>>
    Orleans框架------基于Actor模型生成分布式Id
    查看>>
    SQL-36 创建一个actor_name表,将actor表中的所有first_name以及last_name导入改表。
    查看>>
    ORM sqlachemy学习
    查看>>
    Ormlite数据库
    查看>>
    orm总结
    查看>>
    ORM框架 和 面向对象编程
    查看>>
    OS X Yosemite中VMware Fusion实验环境的虚拟机文件位置备忘
    查看>>
    os.environ 没有设置环境变量
    查看>>
    os.path.join、dirname、splitext、split、makedirs、getcwd、listdir、sep等的用法
    查看>>
    os.removexattr 的 Python 文档——‘*‘(星号)参数是什么意思?
    查看>>
    os.system 在 Python 中不起作用
    查看>>
    OS2ATC2017:阿里研究员林昊畅谈操作系统创新与挑战
    查看>>