博客
关于我
Spark安装部署
阅读量:179 次
发布时间:2019-02-28

本文共 2334 字,大约阅读时间需要 7 分钟。

安装Scala和Spark的详细指南

一、下载Scala和Spark

在开始安装之前,我们需要下载Scala和Spark的安装包。通过终端访问服务器,可以使用Wget命令下载相应的软件包。

# 下载Scalawget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz# 下载Sparkwget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

二、安装Scala

安装Scala后,我们需要将其添加到系统的环境变量中,这样才能在终端中使用Scala命令。

  • 解压Scala安装包

    使用tar命令解压刚下载的Scala安装包。

    tar -zxvf scala-2.11.8.tgz
  • 配置环境变量

    在终端中设置Scala的环境变量,确保PATH包含Scala的安装目录。

    export SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin
  • 验证Scala安装

    在终端中运行Scala命令,验证是否正确安装。

    scala

    输出示例:

    Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152).Type in expressions for evaluation. Or try :help.scala>
  • 三、安装Spark

    安装Spark后,我们需要配置环境变量并验证其正确运行。

  • 解压Spark安装包

    使用tar命令解压刚下载的Spark安装包。

    tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
  • 配置环境变量

    在终端中设置Spark的环境变量,确保PATH包含Spark的安装目录。

    export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
  • 配置Spark-env.sh脚本

    根据Spark文档,编辑spark-env.sh文件,设置必要的环境变量。

    export JAVA_HOME=/opt/jdk1.8export PATH=$PATH:$JAVA_HOME/binexport SCALA_HOME=/opt/scala-2.11.8export PATH=$PATH:$SCALA_HOME/binexport SPARK_HOME=/opt/spark-2.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
  • 四、启动Spark集群

    完成Spark的安装后,我们需要启动集群并验证其运行状态。

  • 启动集群

    使用start-all.sh脚本启动Master节点和Worker节点。

    ./start-all.sh

    输出示例:

    starting org.apache.spark.deploy.master.Master, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.outlocalhost:\Slocalhost: Kernel \r on an \mlocalhost: starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark-2.0.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
  • 验证节点状态

    使用jps命令查看当前运行的Java进程,确认Master和Worker节点已启动。

    jps

    输出示例:

    4128 Jps4049 Worker3992 Master
  • 五、测试Spark环境

    验证Spark环境是否正确配置并运行,确保集群能够正常工作。

  • 运行Spark Shell

    使用spark-shell命令启动Spark Shell,验证集群的连接状态。

    spark-shell

    输出示例:

    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).
  • 读取文件并处理

    通过Spark Shell读取本地文件并进行基本处理,验证Spark集群的功能。

    cat test.loghello gojavac mysql""""

    或者读取HDFS文件:

    var file = sc.textFile("hdfs://master/test.log")file: org.apache.spark.rdd.RDD[String] = hdfs://master/test.log MapPartitionsRDD[3] at textFile at

    集群状态可以通过Web UI查看,访问地址为 http://master:4040

  • 通过以上步骤,您可以成功安装并配置Scala和Spark环境,并验证其运行状态。

    转载地址:http://ssej.baihongyu.com/

    你可能感兴趣的文章
    Nodejs中的fs模块的使用
    查看>>
    nodejs包管理工具对比:npm、Yarn、cnpm、npx
    查看>>
    NodeJs单元测试之 API性能测试
    查看>>
    nodejs图片转换字节保存
    查看>>
    nodejs字符与字节之间的转换
    查看>>
    NodeJs学习笔记001--npm换源
    查看>>
    NodeJs学习笔记002--npm常用命令详解
    查看>>
    nodejs学习笔记一——nodejs安装
    查看>>
    NodeJS实现跨域的方法( 4种 )
    查看>>
    nodejs封装http请求
    查看>>
    nodejs常用组件
    查看>>
    nodejs开发公众号报错 40164,白名单配置找不到,竟然是这个原因
    查看>>
    Nodejs异步回调的处理方法总结
    查看>>
    NodeJS报错 Fatal error: ENOSPC: System limit for number of file watchers reached, watch ‘...path...‘
    查看>>
    Nodejs教程09:实现一个带接口请求的简单服务器
    查看>>
    nodejs服务端实现post请求
    查看>>
    nodejs框架,原理,组件,核心,跟npm和vue的关系
    查看>>
    Nodejs模块、自定义模块、CommonJs的概念和使用
    查看>>
    nodejs生成多层目录和生成文件的通用方法
    查看>>
    nodejs端口被占用原因及解决方案
    查看>>