云原生数据湖的探索和实践:当汇量科技 EnginePlus 团队来到阿里云峰会

云原生数据湖的探索和实践:当汇量科技 EnginePlus 团队来到阿里云峰会

作者:佚名 2021-06-01 16:52:27

企业动态

云原生

数据湖 随着企业业务的快速扩展,衍生数据量面临爆发式增长,企业对数据处理分析的需求日趋迫切。在此背景下,创新技术与方案成为企业刚需,用以解决数据智能处理的挑战。

   从人工智能,到大数据,再到云计算,新技术的革命无处不在,不仅深刻改变着我们的日常生活,也已经成为产业数字化转型的必经之路。目前,我国人工智能核心产业规模已超过千亿元,全国在用数据中心机架数的总规模近400万架,大型以上数据中心超过250个。

  扑面而来的数字浪潮之下,转型中的企业如何辨明方向、找到最适合自己的抓手和方案?

  

 

  5月28日,“2021阿里云峰会”在北京开幕。此次峰会以“云上创新”为主题,阿里云与众多嘉宾、合作伙伴共同探讨了企业数字创新的新思路、新策略、新产品、新方案,展开“云上创新”的全景图。

  在28日下午举行的“全链路数据服务-大数据及AI论坛”分论坛上,汇量科技 (Mobvista)资深算法架构师、EnginePlus 产品负责人陈绪受邀发表演讲,与嘉宾们分享了云原生数据湖的探索和实践,并介绍了汇量自研开源数据湖框架 StarLake 与新一代“一站式云原生大数据 AI 平台” EnginePlus 。

  从数据仓库到湖仓一体:数据分析架构的演进

  随着企业业务的快速扩展,衍生数据量面临爆发式增长,企业对数据处理分析的需求日趋迫切。在此背景下,创新技术与方案成为企业刚需,用以解决数据智能处理的挑战。

  陈绪介绍称,云原生的数据分析架构,经历了从传统数仓,到数据湖,再到湖仓一体的演进。

  

 

  汇量科技资深算法架构师、EnginePlus 产品负责人陈绪发表演讲

  传统数据仓库强调结构化数据,在当今的互联网应用中会导致建模繁琐、流批架构复杂等一系列问题,传统的 hive 等方案也不再适配云原生的演进趋势。在这种背景下,数据湖应运而生。

  数据湖解决了数仓的部分问题,例如实现非结构化数据的处理、流批一体化等等,此外,云上元数据和对象存储能力也在持续不断地演进、优化。在 OSS 的支撑下,计算和存储能够更好地实现分离,数据湖的能力由此得到扩展。

  因此,数据湖和数据仓库的功能进一步整合,已经成为当前的趋势。

  陈绪表示,从业务视角来看,理想的湖仓一体是以数据湖为“底座”,具备元数据管理强拓展性,同时优化对象存储访问的性能,进而能够优化宽表的实时多流摄入能力,最终能够统一支撑分析和科学 AI 的应用场景。

  StarLake:汇量科技自研开源数据湖框架

  据悉,为在互联网业务中实践数据湖和湖仓一体化,汇量科技自研并开源了数据湖框架 StarLake,实现大规模数据的实时摄入和更新,高效构建湖仓一体化分析平台,能够更好地解决开发者上云和数据处理的挑战。

  据介绍,相比开源同类数据湖框架,StarLake 具有以下特点:

  支持多级分区和 Range、Hash 两种分区模式,在 Upsert 场景上有较明显的性能提升,能够支撑实时宽表的能力;

  采用分布式 DB 实现元数据管理,在扩展能力上进一步提升;

  针对对象存储的专门优化: 通过重写文件解析层与存储层融合,达到计算和 IO 并行化;

  同时支持 Copy on Write 和 Merge on Read 模式,支持高并发的写入能力;

  将元数据、分区规则等进一步下推到计算引擎层,进行联合算子优化,提升查询分析的性能。

  陈绪提到,在汇量科技,StarLake 数据湖框架并非“单兵作战”,而是作为新一代一站式云原生大数据 AI 平台 EnginePlus 的一部分,在云原生的架构下,更好地为企业提供服务。

  EnginePlus:新一代一站式云原生大数据 AI 平台

  记者了解到,在 EnginePlus 平台上,StarLake 数据湖可以实现高效的数据摄入,为分析、计算提供“底座”,同时还可无缝对接汇量科技自研的开源机器学习框架 MindAlpha ,对数据进行人工智能建模。

  EnginePlus 通过将大数据与云计算、人工智能等信息技术融合创新,实现数据摄入、数据计算、模型训练、在线预测的一站式闭环,帮助客户有效提升数据处理的效率与精准度。在大规模业务的生产验证下,EnginePlus 兼具快速接入、简单易用、高性能、高稳定性等特点。

  

 

  陈绪举例称,在典型的个性化算法业务场景里,会存在多个实时流,包括用户数据流、item 数据流、交互数据流、离线数据等,通过 StarLake 数据湖框架,实时流可以直接并发入湖,使多个维度的更新同步进行。

  结合 OSS 为数据湖提供的存储能力,就能搭建起一个实时化的宽表,在这个过程中,基本消除了传统数仓建模和 ETL 流程,随后就可以对接分析、BI 和 AI 的计算。

  如此,业务流程变得更加敏捷,数据架构得到了大幅简化。据了解,这套架构已经在广告、电商、风控等场景得到落地使用。

  数据湖场景下,云商产品去向何方?

  作为云原生数据湖的深度用户,汇量科技从业务视角分享了 StarLake 数据湖框架的架构实践。从架构角度,针对数据湖的场景,汇量科技希望未来云厂商在产品功能上如何进一步发展?

  在演讲后的圆桌讨论环节,陈绪提出,站在互联网业务和云原生架构视角看“湖仓一体”的演进,未来将会是应用场景和底层架构融合“co-design” 的趋势。

  陈绪认为,EnginePlus 的数据湖组件 StarLake,根据业务场景以及面向云上对象存储需要有新的融合设计,这同时也是一种新的“co-design”;在湖仓一体趋势中,大家也看到了对象存储和应用层的融合——例如,近期 OSS 推出的加速器就是一个很好的功能;未来,云厂商在对象存储上进一步提升元数据管理、一致性、并发吞吐等能力,更好地支撑各类实时数据分析的场景,能够进一步在湖上统一数据分析体系,是非常有意义的趋势。

  

 

  陈绪在圆桌讨论环节

  伴随着新的行业发展趋势,企业有望实现新一代数据智能开发、解放业务生产力,组成更美好的“云上创新”全景图。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/308368.html<

(0)
运维的头像运维
上一篇2025-05-27 13:29
下一篇 2025-05-27 13:30

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注