大模型分布式并行技术–数据并行优化

大模型分布式并行技术–数据并行优化

作者:hanscalZheng 2023-11-01 20:10:53

云计算

分布式 通信和计算的重叠通常是将通信和计算算子调度到不同的流 (stream) 上实现的。通信算子调度到通信流, 计 算算子调度到计算流, 同一个流上的算子间是顺序执行的, 不同流上的算子可以并行执行, 从而实现反向中梯 度通信和计算的并行重叠。

通信融合

从上文知道数据并行中需要同步每一个模型梯度, 这是通过进程间的 Allreduce 通信实现的。如果一个模型 有非常多的参数,则数据并行训练的每一个 step 中会有非常多次的 Allreduce 通信,下图为融合梯度同步示例。

融合梯度同步示例

通信的耗时可以从通信延迟(lantency) 和数据传输时间消耗两方面考虑。单次通信延迟时间相对固定, 而 传输时间由通信的数据量和带宽决定。减少总的通信消耗, 可以通过减少通信频率来实现, 通信融合是一个可 行的手段,通过将 N 个梯度的 Allreduce 通信合并成一次 Allreduce 通信,可以减少 N- 1 次通信延迟时间。

常用的 Allreduce 融合实现方式是在通信前将多个梯度 tensors 拼接成一个内存地址连续的大 tensor,梯度同 步时仅对拼接后的大 tensor 做一次 Allreduce 操作。参数更新时将大 tensor 切分还原回之前的多个小 tensors,完 成每个梯度对应参数的更新。

通信计算重叠

除了降低绝对的通信耗时,还可以从降低整体训练耗时角度来优化,可以考虑通信和计算的异步流水实现。 数据并行中的梯度同步 Allreduce 通信是在训练的反向过程中进行的, 而 Allreduce 后得到的同步梯度是在训练 的更新过程中才被使用, 在反向中并没有被使用。也就是说上一个梯度的通信和下一个梯度的计算间并没有依 赖,通信和计算可以并行,让两者的耗时相互重叠掩盖,减少反向的耗时,下图为通信计算并行相互重叠示例

通信计算并行相互重叠示例。

通信和计算的重叠通常是将通信和计算算子调度到不同的流 (stream) 上实现的。通信算子调度到通信流, 计 算算子调度到计算流, 同一个流上的算子间是顺序执行的, 不同流上的算子可以并行执行, 从而实现反向中梯 度通信和计算的并行重叠。需要注意的是, 当通信和计算被调度在不同的流上执行时, 需要考虑两个流之间依 赖和同步关系。

  • 某个梯度 Allreduce 通信进行前,该梯度的反向计算已经完成。
  • 某个梯度对应参数的更新计算开始前,该梯度的 Allreduce 通信已经完成。

在梯度同步的数据并行场景中,开发者需要需要通过 stream 间的同步功能保证:

以上两个方法是数据并行中常用的减少通信时间消耗, 提高并行加速比的优化策略。如果能做到通信和计 算的重叠程度越高,那么数据并行的加速比越接近 100% ,多卡并行对训练吞吐提升的效率也就越高。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/284653.html<

(0)
运维的头像运维
上一篇2025-05-14 12:25
下一篇 2025-05-14 12:26

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注