同意吗?计算的未来是分布式!

同意吗?计算的未来是分布式!

译文
作者:布加迪编译 2020-03-04 08:00:00

新闻

人工智能

分布式 分布式应用不是新鲜事。随着ARPANET等计算机网络的出现,第一批分布式应用系统在50年前就开发出来了。

【51CTO.com快译】分布式应用不是新鲜事。随着ARPANET等计算机网络的出现,第一批分布式应用系统在50年前就开发出来了。从那时起,开发人员利用分布式系统来扩展应用和服务,包括大规模模拟、Web服务和大数据处理。我在这20多年的职业生涯中开发过分布式系统,涉及互联网、对等网络、大数据和现在的机器学习等领域。

然而就在不久前,分布式应用还是例外,而不是常态。即使在今天,大多数学校的本科生也很少搞涉及分布式应用的项目(即便有的话),不过这种情况在迅速改变。

分布式应用很快将成为常态,而不是例外

推动这一转变的两大潮流是:摩尔定律终结和新的机器学习应用对计算需求激增。这些潮流导致应用需求和单节点性能之间的差距迅速拉大,这使得我们除了分发这些应用外别无选择。

摩尔定律已死

过去40年来推动计算机行业空前发展的摩尔定律已走到头。根据摩尔定律,处理器的性能每18个月翻番。而今天,它在同一时期仅以10%至20%的速度增长。

虽然摩尔定律可能已死,但对增加计算资源的需求并未停止。为了应对这一挑战,计算机架构师将注意力集中到制造以通用性换性能的针对特定领域的处理器上。

光有针对特定领域的硬件不够

针对特定领域的处理器以牺牲通用性为代价,对特定工作负载进行了优化。这类工作负载的典例是深度学习,深度学习彻底改变了几乎每个应用领域,包括金融服务、工业控制、医疗诊断、制造和系统优化等。

为了支持深度学习工作负载,许多公司竞相制造专用处理器,比如英伟达的GPU和谷歌的TPU。然而,虽然GPU和TPU等加速器带来了更强的计算能力,但它们实质上有助于延长摩尔定律的寿命,而不是从根本上提高改进的速度。

深度学习应用需求的三重打击

机器学习应用的需求正以惊人的速度增长。下面是三种典型的重要工作负载。

1. 训练

据OpenAI的一篇著名博文(https://openai.com/blog/ai-and-compute)介绍,自2012年以来,获得最先进的机器学习结果所需的计算量大约每3.4个月翻番。这相当于每18个月增加近40倍,比摩尔定律还要多20倍!因此,即使摩尔定律还没有终结,它仍远远满足不了这些应用的要求。

这种爆炸性的增长并非仅限于深奥的机器学习应用,比如AlphaGo。类似的趋势也适用于主流应用领域,比如计算机视觉和自然语言处理。不妨考虑两个最先进的神经机器翻译(NMT)模型:2014年的seq2seq模型和2019年针对数百亿个句子对的预训练方法。两者所需的计算资源之比超过5000倍。这相当于每年增加5.5倍。同样不妨考虑ResNet 50与ResNeXt 101 Instagram模型,这两个最先进的对象识别模型分别于2015年和2018年发布。两者的训练时间之比达到惊人的11000倍(ResNet 50使用16个英伟达V100 GPU用时58分钟,ResNetXt 101使用336个GPU用时22天)。这相当于每年增加22倍!这使摩尔定律相形见绌,摩尔定律每年增长仅1.6倍。

这些需求与专用处理器的功能之间的差距日益拉大,系统架构师除了分发这些计算别无选择。最近,谷歌发布了TPU v2和v3 pod,含有多达1000个通过高速网状网络连接的TPU。值得关注的是,虽然TPU v3 pod的功能是TPU v2 pod的8倍,但其中只有2倍来自更快的处理器,其余的6倍来自TPU v3 pod变得更分布式,即使用的处理器比TPU v2 pod多4倍。同样,英伟达发布了两个分布式AI系统:分别是搭载8个GPU和16个GPU的DGX-1和DGX-2。此外,英伟达最近收购了知名网络供应商迈络思,以增强其数据中心中GPU之间的连接性。

2. 调整

情况变得更糟。你不会只训练一次模型。通常,模型的质量取决于各种超参数,比如层数、隐藏单元数量和批大小。找到最佳模型常常需要在各种超参数设置之间进行搜索,这个过程就叫超参数调整,开销可能很大。比如说,RoBERTa是用于预训练NLP模型的可靠技术,它使用的超参数多达17个。假设每个超参数至少有两个值,搜索空间由13万多个配置组成,探索这些空间(哪怕是部分探索)可能需要大量的计算资源。

超参数调整任务的另一个例子是神经架构搜索,它尝试不同的架构,并选择性能最佳的架构,从而使人工神经网络的设计实现自动化。研究人员声称,即使设计一个简单的神经网络也可能需要数十万个GPU计算日。

3. 模拟

虽然深度神经网络模型常常可以利用专用硬件方面的进步,但并非所有机器学习算法都可以。尤其是,强化学习算法涉及大量模拟。由于复杂的逻辑,这些模拟仍然在通用CPU上执行最好(它们将GPU仅用于渲染),因此无法得益于硬件加速器的最新进步。比如说,OpenAI在最近的一篇博文(https://openai.com/blog/openai-five/)中声称,使用128000个CPU核心和仅仅256个GPU(即CPU比GPU多500倍)来训练玩《Dota 2》游戏时能击败爱好者的模型。

虽然《Dota 2》只是个游戏,但我们看到模拟日益用在决策应用领域中,这个领域出现了几家新兴公司,比如Pathmind、Prowler和Hash.ai。由于模拟器试图更准确地对环境建模,复杂性随之增加。这又大大增强了强化学习的计算复杂性。

小结

大数据和AI在迅速改变我们所知道的世界。虽然任何技术革命都存在危险,但我们看到这场革命大有潜力以十年前根本无法想象的方式改善我们的生活。然而要兑现这一承诺,我们需要克服这些应用的需求与硬件功能之间迅速拉大的差距所带来的巨大挑战。为了缩小这个差距,我们只能分发这些应用。这需要新的软件工具、框架和课程来培训和帮助开发人员构建这类应用。这开启了一个新的、令人兴奋的计算时代。

原文标题:The Future of Computing is Distributed,作者:Ion Stoica

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/229031.html<

(0)
运维的头像运维
上一篇2025-04-18 14:10
下一篇 2025-04-18 14:11

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注