在Ubuntu 17.10上安装Apache Spark

这篇文章是我学习大数据的一个延续。我们将在Ubuntu 17.10上安装一个Apache Spark服务器,它将把执行器部署到Apache Mesos集群中。

什么是Spark?

如果你从事这个职位,那么很可能你已经知道Spark是什么了。 但是,以防万一,从他们的主页可以看出Spark是简单的:

Apache Spark是一个快速和通用的集群计算系统。 它提供Java,Scala,Python和R中的高级API,以及支持通用执行graphs的优化引擎。 它还支持一套丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX以及Spark Streaming。

必要条件

对于这个Spark服务器,我们需要一个虚拟机(或者物理服务器,如果有的话)至少有8GB的RAM,4个vCPU和60GB的空间。 还假设你有一个mesos集群来运行我们的Spark。 如果你不这样做,不要害怕你还可以运行spark,但这篇文章不会涵盖这一场景。

我们的第一步是确保更新我们的Ubuntu服务器。更新完成后,继续并重新启动。

# apt update && apt upgrade -y
# reboot

下一步安装 Java 8.

# apt install -y openjdk-8-jdk

由于我们将使用Mesos来部署,因此我们需要在系统上安装mesos,以便我们可以指向mesos库。 可能有一个更简单的方法(我知道这种方式糟透了)做到这一点,但这就是我知道的对我有用的方法。 如果您知道更简单的方法,请在下面评论。 您将需要下载并编译您要部署到的相同版本的Mesos。 对我来说是Mesos 1.4.0。

# apt -y install build-essential python-dev libcurl4-nss-dev libsasl2-dev libsasl2-modules maven libapr1-dev libsvn-dev unzip libz-dev
# wget http://archive.apache.org/dist/mesos/1.4.0/mesos-1.4.0.tar.gz
# tar -xzvf mesos-1.4.0.tar.gz
# cd mesos-1.4.0/
# mkdir build
# cd build
# ../configure
# ln -s /usr/include/locale.h /usr/include/xlocale.h # this is needed or the compile will fail
# make -j 2 V-0
# make install
# ldconfig

我告诉过你这很糟糕,但这是必要的。

我们现在准备下载并安装Spark。

安装 Spark

Get the latest stable release of spark from their downloads page http://spark.apache.org/downloads.html. Leave the selection boxes at their default. At the time of this writing, the latest version of Spark is 2.2.0 so we will download that version. Click on the link on step 3 and you will be taken to a list of mirrors. Copy the URL for the recommended mirror. Next go back to your Spark server and run the following command, substituting your URL:

从官方下载页面http://spark.apache.org/downloads.html获取最新的稳定版Spark。将选择框保留在缺省值中。在写这篇文章时,Spark的最新版本是2.2.0,所以我们将下载该版本。 点击第3步的链接,你将被带到镜像列表。 复制推荐镜像的URL。 接下来返回到您的Spark服务器并运行以下命令,替换您的URL:

# wget http://mirror.reverse.net/pub/apache/spark/spark-2.2.0/spark-2.2.0-bin-Hadoop2.7.tgz

解压下载来的包文件.

# tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz 

将我们的目录重命名为spark,并将其移到更好的地方。

# mv spark-2.2.0-bin-hadoop2.7 spark
# mv spark /usr/local/spark

出于某种原因,当我下载并提取它时,我拥有了用户500组500所拥有的所有文件。请检查并确认是否属于这种情况。

# ls -al /usr/local/spark

如果是这样,那么你将需要修复权限。

# chown root:root -R /usr/local/spark

此时我们已经在我们的服务器上安装了Spark。 现在是配置它与Mesos一起工作的时候了。

配置Spark以使用Mesos

在Mesos slaves,你将需要安装Spark二进制文件,就像我们以前做的。 下面是整个命令:

# wget http://mirror.reverse.net/pub/apache/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
# tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz 
# mv spark-2.2.0-bin-hadoop2.7 spark
# mv spark /usr/local/spark
# chown root:root -R /usr/local/spark

当Spark触发将运行我们的Spark执行程序的mesos任务时,它将会像查看它的任何框架一样寻找它。 确保你在所有的Mesos slaves上这样做。

现在回到你的Spark服务器上,我们需要配置它来使用Mesos。 我们要做的第一件事就是编辑我们的spark环境脚本。

# mv conf/spark-defaults.conf.template conf/spark-defaults.conf

编辑文件并添加以下行:

spark.mesos.task.labels=text:text1
spark.mesos.executor.home=/usr/local/spark/

这第一行就是阻止一些恼人的警告,如果你没有那样坐,你会收到。 第二行告诉Mesos哪里可以找到我们Mesos slaves从站上的Spark二进制文件。 我们现在准备在客户端模式下运行Spark,这将给我们一个CLI,我们可以用它来测试。

第一行是为了阻止一些恼人的警告,如果你不在那里,你会收到。第二行告诉Mesos在哪里可以找到Mesos奴隶的Spark二进制文件。现在我们已经准备好在客户端模式中运行Spark,它将给我们一个CLI,我们可以使用它来测试。

测试你的Spark安装

现在,一切正确配置,我们可以测试,以确保一切正常。 你将需要你的mesos masters的zookeeper地址格式如下:

mesos://zk://mesos1:2181,mesos2:2181,mesos3:2181/mesos

我实际上使用IP地址进行安装,当我们启动python客户端时,这将是必需的。导出环境变量MESOS_NATIVE_JAVA_LIBRARY设置为您的libmesos.so位置,如果您按照上面的说明执行操作:

export MESOS_NATIVE_JAVA_LIBRARY=/usr/local/lib/libmesos.so

使用以下命令运行客户端:

# ./bin/pyspark --master mesos://zk://mesos1:2181,mesos2:2181,mesos3:2181/mesos

这将加载python Spark客户端,并在Mesos上启动一些任务。 您可以通过转到您的mesos集群GUI(http://{mesos-ip}:5050)并查看Active Tasks来验证。 你应该看到两个PySparkShell的任务名称。 您还应该看到您的CLI正在运行:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.2.0
      /_/

Using Python version 2.7.14 (default, Sep 23 2017 22:06:14)
SparkSession available as 'spark'.
>>>

您还可以在以下位置查看Spark应用程序UI:

http://{spark-ip}:4040

我希望你喜欢这个帖子。 如果有帮助或者如果有问题,请发表评论并告诉我。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/220208.html<

(0)
运维的头像运维
上一篇2025-04-14 11:24
下一篇 2025-04-14 11:26

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注