Kubernetes上的Spark变得轻松

Kubernetes上的Spark变得轻松

作者:闻数起舞 2021-02-19 09:20:04

云计算

Spark 如果您正在寻找关于Kubernetes上的Spark的高级介绍,请签出在Kubernetes上运行Spark的优缺点,如果您正在寻找更深的技术潜水,那么阅读我们的指南设置,管理和监控Spark在kubernetes上。

开放源代码版本上的数据机制改进

如果您正在寻找关于Kubernetes上的Spark的高级介绍,请签出在Kubernetes上运行Spark的优缺点,如果您正在寻找更深的技术潜水,那么阅读我们的指南设置,管理和监控Spark在kubernetes上。

[[382157]]

Data Mechanics是一个托管的Spark平台,部署在客户的云帐户内的Kubernetes集群上,可在AWS,GCP和Azure上使用。因此,我们整个公司都建立在Kubernetes上的Spark之上,并且经常被问到与简单地在Kubernetes开源上运行Spark有何不同。

简短的答案是,我们的平台实现了许多功能,这些功能使Kubernetes上的Spark更加易于使用且更具成本效益。通过照顾设置和维护,我们的目标是让您专注于并加速其采用,并节省大量维护工作。我们的目标是通过使Spark变得应有的简单,灵活和高性能来加速您的数据工程项目。

让我们来谈谈基于Spark-on-Kubernetes的主要改进。

直观的用户界面

Data Mechanics用户将获得一个仪表板,他们可以在其中查看其每个Spark应用程序的日志和指标。他们还可以访问Spark UI,该UI很快将被我们自己开发的监视工具Data Datas Delight取代(更新,2020年12月:第一个令人高兴的里程碑已经发布!)。该项目的目的是使Spark开发人员在出现故障时能够轻松对其应用程序进行故障排除,并在必要时为他们提供高级建议,以提高其性能(例如,围绕数据分区和内存管理)。

> Data Mechanics Delight

他们还可以访问“作业用户界面”,该界面提供了管道主要指标的历史图表,例如处理的数据量,持续时间和成本。这样,您的团队就可以轻松确保生产管道按预期运行,并在必要时跟踪成本。

> Data Mechanics Jobs UI

动态优化

Data Mechanics平台自动动态地优化您的管道基础结构参数和Spark配置,以使其快速,稳定。这是我们需要调整的设置:您的Pod的内存和CPU分配,磁盘设置以及有关并行性,随机播放和内存管理的Spark配置。我们通过分析应用程序的日志和指标,并使用应用程序过去运行的历史来找出瓶颈并对其进行优化来实现。

> Data Mechanics’ Auto Tuning Feature

除了自动调整外,我们的平台还可以在Spark应用程序(动态分配)的级别和Kubernetes集群的级别实现自动扩展。这意味着我们管理Kubernetes节点池,以在需要更多资源时缩放群集,并且当它们不必要时,将其降低到零。我们还可以轻松使用Spark Ojecutors的现货节点进一步降低云成本。

> Data Mechanics’ Autoscaling Feature

最后但并非最不重要的一点,我们提供了一个Spark映像列表,其中包含针对常见数据源和接收器的优化连接器。您可以直接使用这些映像,也可以将它们用作使用自定义依赖项构建自己的Docker映像的基础。

这些优化的目标是为您提供Spark应该提供的最高性能,并降低您的云成本。实际上,我们为我们的服务收取的管理费远远超过了我们在您的云提供商账单上节省的费用。我们已帮助从竞争性Spark平台迁移的客户将其云计算费用减少了50%至75%。

整合方式

Data Mechanics与笔记本服务(如Jupyter,JupyterLab,JupyterHub)和调度程序/工作流服务(如Airflow)集成在一起。

由于我们的平台部署在您可以控制的Kubernetes集群上,因此您也可以使用Docker / Kubernetes兼容工具的完整生态系统。而且,由于我们已部署在您的云帐户,VPC中,因此您还可以轻松地使用公司网络内的本地工具构建自己的集成。

> Data Mechanics’ Native Integrations With Jupyter, Docker, Kubernetes, Airflow

托管服务让您高枕无忧

作为托管服务,我们会处理您的基础架构的设置和维护。注册数据机械师时,您会在云帐户上给出客户的权限,我们使用这些权限创建Kubernetes集群,使其与最新的安全修复程序保持最新,并推送每两个新功能的发布周。

> The Data Mechanics Platform Architecture

确保您的部署安全也是我们的责任。我们可以在您公司的VPC内进行部署,并将您的集群设为私有,因此只能通过您公司的虚拟专用网对其进行访问。我们为您提供工具,以通过多个选项来应用安全性最佳实践,以进行数据访问和用户身份验证(单点登录)。

结论

我们很自豪能够在Kubernetes以及其他开源项目的基础上,有时甚至为它们做出贡献。我们正在尝试以公开透明的方式构建您自己构建的数据平台。通过部署在您的云帐户和VPC中,您将获得本地项目的灵活性以及托管平台的易用性。

我们内部进行的优化并不能完全弥补我们的定价,事实上,我们已经帮助一些客户从竞争平台迁移时将总成本降低了50%至75%。

原文链接:

https://medium.com/data-mechanics/spark-on-kubernetes-made-easy-how-data-mechanics-improves-on-the-open-source-version-3446e6672240

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/305174.html<

(0)
运维的头像运维
上一篇2025-05-26 01:53
下一篇 2025-05-26 01:54

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注