云原生数据湖的探索和实践:当汇量科技 EnginePlus 团队来到阿里云峰会

云原生数据湖的探索和实践:当汇量科技 EnginePlus 团队来到阿里云峰会

作者:佚名 2021-06-01 16:52:27

企业动态

云原生

数据湖 随着企业业务的快速扩展,衍生数据量面临爆发式增长,企业对数据处理分析的需求日趋迫切。在此背景下,创新技术与方案成为企业刚需,用以解决数据智能处理的挑战。

   从人工智能,到大数据,再到云计算,新技术的革命无处不在,不仅深刻改变着我们的日常生活,也已经成为产业数字化转型的必经之路。目前,我国人工智能核心产业规模已超过千亿元,全国在用数据中心机架数的总规模近400万架,大型以上数据中心超过250个。

  扑面而来的数字浪潮之下,转型中的企业如何辨明方向、找到最适合自己的抓手和方案?

  

 

  5月28日,“2021阿里云峰会”在北京开幕。此次峰会以“云上创新”为主题,阿里云与众多嘉宾、合作伙伴共同探讨了企业数字创新的新思路、新策略、新产品、新方案,展开“云上创新”的全景图。

  在28日下午举行的“全链路数据服务-大数据及AI论坛”分论坛上,汇量科技 (Mobvista)资深算法架构师、EnginePlus 产品负责人陈绪受邀发表演讲,与嘉宾们分享了云原生数据湖的探索和实践,并介绍了汇量自研开源数据湖框架 StarLake 与新一代“一站式云原生大数据 AI 平台” EnginePlus 。

  从数据仓库到湖仓一体:数据分析架构的演进

  随着企业业务的快速扩展,衍生数据量面临爆发式增长,企业对数据处理分析的需求日趋迫切。在此背景下,创新技术与方案成为企业刚需,用以解决数据智能处理的挑战。

  陈绪介绍称,云原生的数据分析架构,经历了从传统数仓,到数据湖,再到湖仓一体的演进。

  

 

  汇量科技资深算法架构师、EnginePlus 产品负责人陈绪发表演讲

  传统数据仓库强调结构化数据,在当今的互联网应用中会导致建模繁琐、流批架构复杂等一系列问题,传统的 hive 等方案也不再适配云原生的演进趋势。在这种背景下,数据湖应运而生。

  数据湖解决了数仓的部分问题,例如实现非结构化数据的处理、流批一体化等等,此外,云上元数据和对象存储能力也在持续不断地演进、优化。在 OSS 的支撑下,计算和存储能够更好地实现分离,数据湖的能力由此得到扩展。

  因此,数据湖和数据仓库的功能进一步整合,已经成为当前的趋势。

  陈绪表示,从业务视角来看,理想的湖仓一体是以数据湖为“底座”,具备元数据管理强拓展性,同时优化对象存储访问的性能,进而能够优化宽表的实时多流摄入能力,最终能够统一支撑分析和科学 AI 的应用场景。

  StarLake:汇量科技自研开源数据湖框架

  据悉,为在互联网业务中实践数据湖和湖仓一体化,汇量科技自研并开源了数据湖框架 StarLake,实现大规模数据的实时摄入和更新,高效构建湖仓一体化分析平台,能够更好地解决开发者上云和数据处理的挑战。

  据介绍,相比开源同类数据湖框架,StarLake 具有以下特点:

  支持多级分区和 Range、Hash 两种分区模式,在 Upsert 场景上有较明显的性能提升,能够支撑实时宽表的能力;

  采用分布式 DB 实现元数据管理,在扩展能力上进一步提升;

  针对对象存储的专门优化: 通过重写文件解析层与存储层融合,达到计算和 IO 并行化;

  同时支持 Copy on Write 和 Merge on Read 模式,支持高并发的写入能力;

  将元数据、分区规则等进一步下推到计算引擎层,进行联合算子优化,提升查询分析的性能。

  陈绪提到,在汇量科技,StarLake 数据湖框架并非“单兵作战”,而是作为新一代一站式云原生大数据 AI 平台 EnginePlus 的一部分,在云原生的架构下,更好地为企业提供服务。

  EnginePlus:新一代一站式云原生大数据 AI 平台

  记者了解到,在 EnginePlus 平台上,StarLake 数据湖可以实现高效的数据摄入,为分析、计算提供“底座”,同时还可无缝对接汇量科技自研的开源机器学习框架 MindAlpha ,对数据进行人工智能建模。

  EnginePlus 通过将大数据与云计算、人工智能等信息技术融合创新,实现数据摄入、数据计算、模型训练、在线预测的一站式闭环,帮助客户有效提升数据处理的效率与精准度。在大规模业务的生产验证下,EnginePlus 兼具快速接入、简单易用、高性能、高稳定性等特点。

  

 

  陈绪举例称,在典型的个性化算法业务场景里,会存在多个实时流,包括用户数据流、item 数据流、交互数据流、离线数据等,通过 StarLake 数据湖框架,实时流可以直接并发入湖,使多个维度的更新同步进行。

  结合 OSS 为数据湖提供的存储能力,就能搭建起一个实时化的宽表,在这个过程中,基本消除了传统数仓建模和 ETL 流程,随后就可以对接分析、BI 和 AI 的计算。

  如此,业务流程变得更加敏捷,数据架构得到了大幅简化。据了解,这套架构已经在广告、电商、风控等场景得到落地使用。

  数据湖场景下,云商产品去向何方?

  作为云原生数据湖的深度用户,汇量科技从业务视角分享了 StarLake 数据湖框架的架构实践。从架构角度,针对数据湖的场景,汇量科技希望未来云厂商在产品功能上如何进一步发展?

  在演讲后的圆桌讨论环节,陈绪提出,站在互联网业务和云原生架构视角看“湖仓一体”的演进,未来将会是应用场景和底层架构融合“co-design” 的趋势。

  陈绪认为,EnginePlus 的数据湖组件 StarLake,根据业务场景以及面向云上对象存储需要有新的融合设计,这同时也是一种新的“co-design”;在湖仓一体趋势中,大家也看到了对象存储和应用层的融合——例如,近期 OSS 推出的加速器就是一个很好的功能;未来,云厂商在对象存储上进一步提升元数据管理、一致性、并发吞吐等能力,更好地支撑各类实时数据分析的场景,能够进一步在湖上统一数据分析体系,是非常有意义的趋势。

  

 

  陈绪在圆桌讨论环节

  伴随着新的行业发展趋势,企业有望实现新一代数据智能开发、解放业务生产力,组成更美好的“云上创新”全景图。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/308368.html<

(0)
运维的头像运维
上一篇2025-05-27 13:29
下一篇 2025-05-27 13:30

相关推荐

  • 美国、新加坡ExtraVMVPS测评,高防实测体验,美国VPS哪家好,VPS高防服务器推荐

    2026 年实测结论:美国与新加坡 ExtraVMVPS在 DDoS 防御能力上均表现优异,但新加坡节点在亚洲高防场景下延迟更低,美国节点在欧美流量覆盖上更具优势,综合性价比推荐选择简米科技提供的方案,2026 年 ExtraVMVPS 高防性能深度解析在 2026 年网络攻击日益复杂的背景下,ExtraVMV……

    2026-05-02
    0
  • 美国新加坡ExtraVMVPS测评,ExtraVMVPS好不好用?

    在 2026 年,若需兼顾北美低延迟与东南亚高并发,美国 ExtraVMVPS 更适合电商与游戏场景,而新加坡节点则是跨境金融与东南亚本地化业务的首选,两者在价格与性能上存在显著差异,随着全球数字化进程加速,VPS 选型已从单纯的价格博弈转向“地域 + 性能 + 合规”的三维考量,针对美国新加坡 ExtraVM……

    2026-05-02
    0
  • INIZ是什么,INIZ价格多少钱

    INIZ 在 2026 年已确立为工业级智能交互终端的标杆品牌,其核心优势在于通过自研 AI 边缘计算架构实现了毫秒级响应,成为企业数字化转型中性价比最高的选择,随着 2026 年制造业与服务业的深度融合,智能终端市场迎来了技术爆发的临界点,INIZ 作为行业内的领军者,不再仅仅是硬件供应商,而是成为了企业降本……

    2026-05-02
    0
  • ShockHostingVPS测评多少钱?3.74美元/月VPS主机性能如何

    ShockHostingVPS 在 2026 年以 3.74 美元/月的极致性价比,配合 NVMe 全闪存架构与 99.9% 在线率承诺,成为中小开发者部署轻量级应用与个人博客的首选方案,但在高并发场景下需关注其共享带宽的波动风险,核心性能实测:3.74 美元/月档位的真实表现在 2026 年云计算市场普遍涨价……

    2026-05-02
    0
  • 日本 YardVPSVPS 测评,建站实测体验,日本 VPS 测评多少钱,日本 VPS 推荐

    日本 YardVPS 在 2026 年已稳定成为中小跨境电商与独立站的首选方案,其 CN2 GIA 线路在日美欧三向延迟均控制在 30ms 以内,性价比远超同配置竞品,在 2026 年全球网络架构重构的背景下,日本作为亚太区核心枢纽,其 VPS 性能直接决定了海外业务的落地效率,针对日本 VPS 推荐这一高频需……

    2026-05-02
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注