D-SMART如何利用数据库的可观测性能力的

昨天我发了一篇数据库可观测性的文章,谈了可观测性与监控的差别。在运维领域,监控是一个强需求,无论如何,你的数据库在跑一些有价值的业务应用,你就必须去监控数据库。而可观测性并不是时时需要的,如果巡检做完以后,发现的问题也无法得到解决,那么巡检就变成了一个样子货了。

可观测性也是如此,平时的时候,一些小问题还不至于让人兴师动众。不过当系统出现了一个比较大的问题,导致了一些严重后果的时候,IT部门才发现,我们需要对日常发现的一些小问题做闭环管理,要防患于未然。实际上防患于未然这句话好说,却极难落地,因为这背后是巨大的成本。只有做到系统优化常态化的企业才能真正做到闭环管理和防患于未然,对于大多数运维经费有限的企业来说只能嘴上向领导表表态而无法真正去实施了。

D-SMART是一个基于数据库可观测性能力构建的深度运维工具,在研发之初,我们就希望充分利用数据库的可观测性能力,尽可能地将数据库系统数字化。因此每种数据库我们都采集了数百个指标与配置项。当我几年前和一个客户谈到我们的系统采集了数百个数据库的指标与配置项的时候,他直摇头,我们不需要那么多指标,有几个指标够我们监控就行了。太多了,我们也看不过来。实际上,D-SMART采集那么多数据并不是让你看的,运维监控人员确实只能聚焦在少量的几个指标上。D-SMART的指标大多数是用于分析的,并不是用于监控,如果要监控,只需要看“健康模型”或者监控主界面上的那几个关键指标就行了。

D-SMART利用数据库运维专家多年来积累的经验采集了数百个指标,这些指标来自于数据库的系统状态、METRIC、等待事件、日志、TOPSQL、跟踪数据等。为了减少D-SMART采集对于数据库的影响,这些采集都采用开销最小的方法,从系统视图中一次性获取,然后在D-SMART上加工的方式。

数据采集中已经包含了大量的专家经验,比如Oracle数据库的表空间使用率,实际上采集这个数据需要对数据库进行全库扫描,如果系统比较大,IO性能较差,系统比较繁忙的情况下,这个采集对数据库影响还是挺大的。我们以前也遇到过一个客户的数据库超融合一体机的一个故障,就是因为他们的一体机管理软件的表空间使用率采集是分钟级的,而一次采集需要30分钟才能完成,大量采集任务积压导致了一体机IO链路故障,导致了宕机。在D-SMART中,表空间使用率采集是4小时一次或者1天一次的,当上一次没有完成之前,新的采集不会发起,从而避免在一些极端的情况下因为运维监控导致数据库出问题。而在系统的指标体系中,使用了一些“风险”类和“可用天数”的指标来真正地反映出系统存在的风险,这些指标都是通过分析和计算后获得的。

从另外一个例子上可以看到D-SMART在监控指标设计上的专家经验特征。

很多监控软件在采集共享池信息时,喜欢把一些X$视图的数据采集回来做展示。实际上X$视图都是Oracle数据库的内存结构,采集时需要对这些数据加闩锁。如果数据库系统的共享池存在问题的时候,这种采集很可能成为骆驼身上添加的最后一根稻草。前阵子我们的一个商用版用户反馈说他们的共享池性能有点问题,就是用我们的一个共享池分析工具去分析共享池碎片情况,没想到触发了一个BUG,报了ORA-600错误。确实是的,当共享池有问题的时候,如果去访问那些X$视图去查看共享池的情况,是很容易触发一些BUG的,严重时候会出现实例宕机的情况。

为了既能够发现共享池存在的问题,又避免平时不过多干扰共享池,我们使用了上面的一些指标来综合评估共享池可能存在的风险。大家可以看出,这些指标都不需要去对共享池加闩锁。这种设计后面体现的是一帮老司机的经验。

有了强大的指标体系,才能更加充分地利用数据库的可观测性能力。基于如此丰富的指标数据,我们就可以实现各种深度的运维能力了。

比如我们给系统监控者提供的工具包括“健康模型”、“等待事件实时分析工具”,“等待事件历史分析工具”,“问题分析工具”(用于分析一段时间内系统可能存在的各种问题)、“运维经验告警”,“TOP SQL分析工具”、“SQL审计工具”,“关键SQL跟踪分析工具”,“容量分析工具”,“集群拓扑查看工具”、“日检、月检、特检、审计工具”等一系列的运维工具。运维人员不需要盯着指标看,甚至不需要盯着D-SMART看,把短信告警或者微信告警、邮件告警接好,收到告警信息再去看看系统就可以了。

充分利用数据库的可观测性可以干很多事情,专家直接看数据也行,利用数据库提供的工具(WDR/AWR/ASH等报告)也行,采集回来放着,一旦发生问题去回溯分析也可以。实际上D-SMART发布社区版的想法来自于一个合作伙伴的需求。当时我们的一个合作伙伴提出有几十个客户,没多少钱,希望出问题后我们能派专家去现场分析。我们算了一下,如果专家去现场,每年多出几次问题就亏了。于是提出能不能远程分析,不过那些客户里大多数是不允许VPN连上去分析的。于是我们提出来使用d-smart辅助。测试了一两个客户,发现效果还不错,用户出问题的时候,D-SMART生成几份报告,远程分析一下,就基本上解决问题了。不过让这些用户都买一套D-SMART,用户也买不起,那怎么办,经过几次讨论,我们想出了一个发布D-SMART社区版的方法。利用社区版日常采集的数据,到需要提供服务时就可以生成远程分析所需要的报告了。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/307911.html<

(0)
运维的头像运维
上一篇2025-05-27 08:26
下一篇 2025-05-27 08:27

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注