病入膏肓的系统优化应该注意一些什么

最近我正在参与一套问题十分严重的系统的性能优化工作,这套系统就像一个随时可能死去的危重病人。面对一个病入膏肓的病人,中医不会下猛药希望立马根治,名医会先用一些温和的药调理,等到适合用猛药的时候再用比较激进的药方。西医也不会立马对病人开膛破肚,而是要把严重的炎症、发烧等症状压制好了,再进行手术。那么我们面对一个十分脆弱、性能糟糕的系统做优化,是不是也应该注意一点什么呢?

我遇到过不少DBA朋友都觉得对于系统,只要是优化就一定是有效的,因此哪怕做的不对症,也没有关系,大不了就是没效果呗。而事实上不是这样,一个糟糕的优化工作可能带来的负面影响是十分巨大的。快十年前了,一个客户的系统应用升级后出现了性能问题。表现在REDO量剧增,同时数据库的性能也出现了较为严重的瓶颈。

从RAC的两个节点的TOP 5 EVENTS上可以看出行锁等待很严重,同时存在比较严重的row cache lock的问题,共享池经常报ORA-4031错误。当时的运维人员认为需要做一些调整来解决当前的问题。

运维人员根据判断调整了几个数据库参数,本以为能够立即解决问题,没想到调整后系统反而变得更不稳定了,动不动就因我ORA-4031而导致宕机。经过调整后,这套系统甚至连生成一个AWR报告都经常因为ORA-4031报错而失败。

随后我们介入了这个优化项目,在进入现场后我们并没有立即动手做优化工作,而是做了一次业务人员与开发厂商的现场调研,掌握了一些系统的基本情况。

没有直接通过AWR报告的信息就去动手是因为我们仔细分析了负载文件,发现每秒执行数才1569,虽然硬解析等指标都很高,但是如此低的并发执行数,15GB的共享池经常出现ORA-4031,绝对不是简单的共享池碎片可以解释的了。

这个案例在我以前写过的《一个共享池性能问题的优化分析》这篇文章里了,大家有兴趣可以去翻阅。我今天提出这件事是因为最近面临的这个系统优化工作有类似的情况。为什么在优化工作中经常会遇到这样的事情呢?

这是我多次说的系统中的排队效应。系统存在优化的地方,特别是因为系统资源不足等原因出现了严重性能问题的系统,都会在某些地方存在堵点。这些堵点是导致当前性能问题的关键点。随着某些堵点被打通,从用户会话到后端存储的整条链路的吞吐量会变得更大。此时如果出现一个可能导致更严重性能问题的资源的不足,那么拥塞情况不会变好,而会更糟糕。我疏通下水道的时候就遇到过这种情况,有时候采用了很多手段,疏通前虽然下水慢,但是还能慢慢漏水,而疏通后很可能就完全堵死,只能找专业疏通队来干了。

面对这样的系统,可能很多有经验的DBA都会看出来,DB CPU过高应该是急需解决的问题,如果不解决这个问题,很可能会引发更严重的问题。确实是的,这套系统在业务高峰期的操作系统R队列长度经常长时间超过600(128核的服务器)。

实际上这套系统在不同的时间段表现出来的问题还是有些不同的。IO负载也很高,两个节点高峰期的IOPS超过10万,RAC INTERCONNECT的网络吞吐量也很高,一小时平均值都在100M/秒,高峰值超过250M/秒。因此我们也可以看出GC方面的等待也很高。

开发商的专家提出IO负载过高,因此要尽快降低IO资源,找出了十来张缺索引的表加了一通索引,期望能把IO负载降下去。这种加索引是项目组的常规操作,发现哪条SQL慢了就试着加索引。我们觉得当前阶段加一些索引风险还可控,因此也没有太阻拦。不过加过索引之后,IO负载并没有预期的下降。

他们对此也很不理解,按照他们的想法,IO问题应该解决的差不多了才是。实际上通过加索引,打通了这个小堵点后,系统的总体负载更高了。

从AWR报告上看,每秒执行数从4000+提升为5500+了。从历史指标对比上看,也确实高了一些。更高的并发执行量导致了更大的IO负载。实际上这次优化后,并没有降低月底业务高峰期的系统负载,甚至让风险更大了一些。

于是我们马上就需要做一些补救,在月底高峰期来临之前,补充做一些降低总体负载的工作,首先要让这个月底高峰平稳过渡过去,然后才能给我们争取到半个多月时间,做更多的优化工作。等系统平稳后,再进行全面的优化。

文章来源网络,作者:管理,如若转载,请注明出处:https://shuyeidc.com/wp/306070.html<

(0)
管理的头像管理
上一篇2025-05-26 11:53
下一篇 2025-05-26 11:54

相关推荐

  • 云服务器和云虚拟主机怎么选?云服务器和虚拟主机区别

    云服务器适合业务增长快、需弹性扩展的场景,而云虚拟主机适合预算有限、技术门槛低的小型静态网站或测试环境,二者核心区别在于资源独享性与运维复杂度,核心差异解析:从底层架构到使用体验很多人容易混淆这两者,觉得它们都是“买空间建站”,它们的底层逻辑完全不同,云服务器(ECS)就像是你租了一整栋别墅,水电网络独立,你想……

    2026-06-29
    0
  • 赣州智慧旅游招聘是真的吗?赣州旅游人才招聘信息

    中级岗位(3-5年经验)月薪范围通常在6000-10000元,这类岗位需要独立负责项目模块,如独立运营一个抖音账号,或维护一个景区小程序的功能迭代,具备成功案例的候选人议价能力较强,高级岗位(5年以上经验)月薪范围通常在10000-20000元,部分核心管理岗可达更高,这类人才需要具备战略规划能力,如制定整个景……

    2026-06-29
    0
  • 赣州智能物联网车位锁如何管理?智能车位锁管理系统多少钱

    赣州智能物联网车位锁管理的核心在于通过云端平台实现远程控锁、状态实时监控及自动计费,彻底解决传统车位“被占难管”与“找位难”的痛点,在赣州这样的城市,随着机动车保有量的持续增长,老旧小区、商业综合体以及私人固定车位的资源矛盾日益凸显,传统的机械地锁或简易遥控锁,不仅操作繁琐,更无法实现数据化管理,引入智能物联网……

    2026-06-29
    0
  • 赣州智能消防栓好用吗,智能消防栓多少钱一个

    赣州智能消防栓通过物联网技术实现实时监测与远程报警,能显著降低火灾响应时间并提升城市消防安全管理水平,是目前智慧城市建设中不可或缺的基础设施,赣州智能消防栓的核心价值与应用场景传统消防栓往往存在“看不见、摸不着、用不了”的痛点,在赣州这样地形复杂、老城区与新城区并存的区域,传统设施的管理难度极大,智能消防栓的出……

    2026-06-29
    0
  • 云服务器和物理机到底有啥区别?

    云服务器本质上是虚拟化资源池中的弹性实例,而传统物理服务器是独占的硬件实体,前者胜在弹性与运维便捷,后者强在物理隔离与性能稳定,具体选择取决于业务对成本、扩展性及安全合规的权衡,很多人初次接触服务器时,容易把“云服务器”和“传统物理服务器”混为一谈,觉得它们都是用来跑网站或存数据的盒子,这两者的底层逻辑完全不同……

    2026-06-29
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注