微软亚洲研究院智能运维:云服务的智能原动力

微软亚洲研究院智能运维:云服务的智能原动力

原创
作者: 赵立京 2022-01-24 17:47:10

云计算 AIOps在多方面都直击传统运维的痛点。AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。

疫情已经改变了人们生产、生活的方式。协同合作、远程办公、在线教育等场景成为了常态,而这些场景也对基础设施提出了更高的要求。

Gartner 研究副总裁 Sid Nag 认为,云已经成为主流策略:“下一代的产品方案,几乎都是搭建于云平台上的。”但随着越来越多的用户上云,系统的管理正面临着前所未有的挑战。海量用户、大规模集群、复杂的系统架构使传统的运维方式力不从心。如何实时检测异常、快速响应故障、预测故障、合理规划容量等问题已成为重要课题。此时,智能运维AIOps闪亮登场。

AIOps在多方面都直击传统运维的痛点。AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。根据Gartner的战略规划假设,到2023年,将有40%的DevOps团队将通过用于IT运营(AIOps)平台的AI增强应用程序和基础架构监视工具。

在炙手可热的人工智能领域,数据驱动、AI 赋能的微软云始终以理性而乐观的姿态立足于全球云服务市场。数据为微软云的管理提供了新的维度——数据智能。微软亚洲研究院常务副院长,微软杰出首席科学家张冬梅表示,微软主要从三个方面来定义AIOps: AI for System、AI for Customer、AI for DevOps。AIOps在这些应用场景中面临着诸多挑战。

AIOps的应用:精准预测、高效解决、更好服务

AI for System要求开发者能从运行的系统角度看问题,比如系统异常检测不仅仅是找到问题,最好还可以提前预警。以硬盘故障预测为例,开发者可以通过分析已经发生改变的数据或状态,来预测磁盘是否有故障,系统在学习了大量硬盘的历史数据后,对照目前磁盘的状态,预测将来是否可以及时采取措施。此外,除了发生故障的硬盘,还需要考虑其邻近磁盘的情况。

微软亚洲研究院首席研究员林庆维介绍说,微软亚洲研究院研发了邻域-时间注意力模型(NTAM)。该模型包含了邻域感知组件、时间组件、决策组件,在时间和空间上都能够捕捉更多的信息。林庆维表示,通过与过去 10 年、20 年最前沿的期刊或者会议上的论文方法对比,该模型从精确度和召回率方面都有很好的效果,预测能力很强。

AI for DevOps主要针对的是开发和运维人员的生产效率。在出现问题时,解决问题并不仅仅是快速恢复正常,而是如何通过大量的检测、诊断,来更快、更高效地解决问题本身。相关部署通常从非常小的规模开始,逐步扩大规模,在确认每一步都安全后才能部署到云平台。整个部署过程中需要检测所有的健康信号,包括资质、传感器信号、状态等。当任何一方面出现问题时,开发人员首先会检查是不是某个部署问题导致,同时根据部署做关联性排查。

针对AI for DevOps方面的安全部署诊断问题,微软亚洲研究院提出了主动迁移学习异常检测(ATAD)方案。该方案通过迁移学习把从别的数据上学到的知识转化为目标领域,同时通过主动学习让工程师排出优先级,得到更好的学习效果。目前该方案已经用到了微软云平台中。“这个方案通常很难获得高质量的标签数据,所以需要工程师有非常强的见解才能作出判别。” 林庆维表示。

AI for Customer则要打造更好的用户体验,为客户提供更好的服务。

林庆维以智能虚拟机预配置为例,介绍了微软亚洲研究院在AI for Customer方面所做的部分研究工作。云平台申请虚拟机需要时间,解决这个问题的方案之一就是预先装好软件和系统的配置,当用户有需求时可以直接用。但虚拟机池的容量有限,每种类似的机型不可能配置很多,所以需要预测用户会配置什么类型的虚拟机,以实现最优配置。微软亚洲研究院对此提出全新方法框架,将不确定性感知框架用于预测与优化。结果表明,该方法实现了相较于其他算法更优的表现。  

伴随着微软亚洲研究院数据、知识、智能组与微软云产品团队的深度合作,一系列创新技术已经在云系统的故障预测、异常检测、智能诊断、容量规划、事故管理等诸多实际应用场景中落地,相关研究成果也在 ICSE、OSDI、USENIX ATC、WWW、AAAI、KDD 等高影响力会议中发表, 极大地提升了服务质量、用户体验和工业生产力。

AIOps的未来:自主化、主动化、通用化

谈到未来AIOps的研究方向,林庆维表示,首先是更加自动化、自主化。目前AIOps的方向更多的是给用户提供一定的建议和推荐,但是微软亚洲研究院希望在未来,AIOps能够更加自主化,可以自动做决策,帮助用户做出最优的决策,而不需要人工的干预;二是更加主动化,不能等到问题出现了才想起来解决问题,而是把问题遏止在萌芽的状态;三是会更加通用化,跨平台的AIOps应用不仅服务于云平台,而是服务于所有平台。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/252456.html<

(0)
运维的头像运维
上一篇2025-04-29 10:58
下一篇 2025-04-29 10:59

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注