字节客增慢 SQL 治理体系

作者 | 房厂

项目概览

背景

慢 SQL 即执行时间超过 long_query_time 设定阈值的 SQL 语句,可通过 select @@long_query_time 查看数据库具体的慢查询阈值。另外慢 SQL 不仅仅包括 select 语句,也包括 delete,insert 等 DML 语句。

慢查询 SQL 的危害包括:

  • 性能: 慢 SQL 的执行时间过长,则会导致用户的等待时间过长,直接影响用户体验;
  • 稳定性: 当 db 出现慢查询,一旦有其他的 DDL 操作,可能会造成整个数据库的等待;另一方面,慢 SQL 会拖垮数据库,导致正常执行的 SQL 也会变成慢 SQL。在字节的线上事故管理平台搜索慢 SQL 关键字可以看到很多由于慢 SQL 导致的事故,危害性较大。

成果

发布慢 SQL 月报,整理最佳实践,头部泳道推动改进等取得了慢 SQL 数下降了近 50%,慢 SQL 周运行次数下降了一个数量级的成效;

慢 SQL 配置&告警订阅持续配置率从 18% 提升到 70% 左右,持续优化中。

名词解释

  • RDS:Relational Database Service,即字节关系型数据库服务。提供的关系数据库服务,使用的数据库产品主要以开源 MySQL 数据库为主。字节云关系型数据库服务(RDS)专注于为业务提供稳定可靠,弹性伸缩的在线数据库服务。
  • Mars:客增性能平台名称。
  • 风神 Aeolus:字节自研敏捷 BI 平台,提供灵活易用的数据查询,高效美观的报表制作,与丰富多元的数据内容。

设计方案

1. 架构图

2. 核心功能

2.1 全面的慢 SQL 度量看板

以字节 RDS 平台数据库的慢 SQL 数据为依据,量化管理客增每日/每周/每月的慢 SQL 数量&运行次数。按照度量看板数据推动大家及时改进存量的慢 SQL,降低数据库质量风险。例如周维度的运行次数 & 慢 SQL 条数趋势图如下所示:

2.2 慢 SQL 治理体系

2.2.1 rds 慢 SQL 阈值配置自动化管理

字节关系型数据库平台-RDS 提供慢 SQL 阈值配置的功能:

  • 当 SQL 执行时间超过该阈值后,会被自动 kill 终止运行,相当于慢 SQL 的容灾配置(如果一条 SQL 执行了 3 个月还在运行,结果不敢想象)

慢 SQL 阈值配置自动化管理是解决业务关联的数据库全部配置了慢 SQL 阈值信息。该部分通过线上定时巡检来实现,流程如下:

2.2.2 Mars-慢 SQL 治理平台

在客增质量工作台搭建 Mars-客增慢 SQL 治理 Web 页面,展示相关业务的慢 SQL 现状以及排期跟进修复情况,目的是让业务同学更清晰快速了解当前业务相关,提供问题修复效率,方案如下:

慢 SQL 跟进页面:

2.2.3 慢 SQL 风险评估模型-慢 SQL 分

当业务线存在较多慢 SQL 时,如何精准且合理的分析出哪些慢 SQL 风险最高?

我们基于关系型数据库的 Quert_time,Lock_time,Rows_sent,Rows_affected,Bytes_sent 等维度建立客增的慢 SQL 风险评估模型,给每条慢 SQL & 每个数据库打分,按照慢 SQL 分来排序,分数最高的慢 SQL 风险最高。

慢 SQL 模型如下:

2.3 慢 SQL-CI 流水线准入/准出卡口建设

基于 ByteCycle(ByteCycle 字节统一能效中台)开发慢 SQL 原子节点,提供慢 SQL 相关的卡点能力。bytecycle 基于 psm 维度来构建持续集成流水线,通过提供慢 SQL 原子节点,可以方便用户插拔式使用。CI 卡点能够提供大家对慢 SQL 的重视程度以及提高慢 SQL 的改进效率。

2.4 慢 SQL 监控&告警订阅

目前提供慢 SQL 月报,每日慢 SQL 相关问题修复提醒,sqll kill lark 告警卡片等维度的信息展示和触发。相关样式如下:

慢 SQL 月报

每日慢 SQL 问题修复提醒

配置 db 慢查询阈值后,如果超过该阈值则该语句会被 db 自动 kill,订阅后会自动将获取到的 kill 信息发送到对应群中

3. Code 方案

RDS 元信息获取实现方案

数据表设计

createtablecg_rds_external
(
idintunsignedauto_incrementprimarykeycomment'id',
db_namevarchar(100) default''nullcomment'db名字',
ownersvarchar(100) default''notnullcomment'db owners',
regionvarchar(100) default''notnullcomment'db部署的region',
proxy_port_mastervarchar(100) default''notnullcomment'master节点的port',
proxy_port_slavevarchar(100) default''notnullcomment'slave节点的port',
sync_timedatetimedefaultCURRENT_TIMESTAMPnotnullonupdateCURRENT_TIMESTAMPcomment'数据同步时间'
) ENGINE=InnoDBDEFAULTCHARSET=utf8mb4comment'rds db额外信息';


createtablecg_rds_slow_query_config
(
idintunsignedauto_incrementprimarykeycomment'id',
config_idintnullcomment'慢查询配置id',
db_namevarchar(255) default''nullcomment'db名字',
regionvarchar(100) default''notnullcomment'db部署的region',
portvarchar(100) default''notnullcomment'规则中的端口',
db_rolevarchar(100) default''notnullcomment'master or slave',
max_query_timeintnullcomment'超时阈值,单位是秒',
creatorvarchar(100) default''nullcomment'规则创建人',
create_timevarchar(100) default''nullcomment'规则创建时间',
sync_timedatetimedefaultCURRENT_TIMESTAMPnotnullonupdateCURRENT_TIMESTAMPcomment'数据同步时间'
) ENGINE=InnoDBDEFAULTCHARSET=utf8mb4comment'rds慢查询规则配置信息';

createtablecg_rds_db_alarm_config
(
idintunsignedauto_incrementprimarykeycomment'id',
regionvarchar(100) default''notnullcomment'db部署的region',
alarm_idintnullcomment'alarm 规则id',
db_namevarchar(255) default''nullcomment'db名字',
typevarchar(100) default''notnullcomment'alarm type,例如lark',
group_idvarchar(100) default''notnullcomment'lark id',
create_timevarchar(100) default''notnullcomment'规则创建/更新时间',
ownervarchar(100) default''notnullcomment'alarm创建人',
sync_timedatetimedefaultCURRENT_TIMESTAMPnotnullonupdateCURRENT_TIMESTAMPcomment'数据同步时间'
)ENGINE=InnoDBDEFAULTCHARSET=utf8mb4comment'rds alarm配置表';

慢 SQL 查询详情落库

数据表

createtablecg_slow_query_detail_info
(
idintunsignedauto_incrementprimarykeycomment'id',
db_namevarchar(255) default''nullcomment'db 名',
db_regionvarchar(255) default''nullcomment'db的region',
fingerprint_md5varchar(255) default''nullcomment'慢sql标识',
begin_timedatetimeDEFAULTCURRENT_TIMESTAMPnullcomment'慢sql的开始执行时间',
max_run_timevarchar(255) default''nullcomment'sql执行的最大耗时',
run_countintdefault0nullcomment'sql执行次数',
psm_namevarchar(255) default''nullcomment'发起sql的psm',
avg_query_timevarchar(255) default''nullcomment'平均耗时',
rds_addressvarchar(255) default''nullcomment'执行sql的rds主机ip:port',
psm_hostvarchar(255) default''nullcomment'发起查询请求的主机ip',
sync_timedatetimeNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMPCOMMENT'数据同步时间'
) ENGINE=InnoDB
DEFAULTCHARSET=utf8mb4comment'客增慢sql记录';

慢 SQL 被 kill 的详情信息获取方案

数据表

createtablecg_kill_sql_detail_info
(
idintunsignedauto_incrementprimarykeycomment'id',
db_namevarchar(255) default''nullcomment'db 名',
db_regionvarchar(255) default''nullcomment'db的region',
db_rolevarchar(255) default''nullcomment'db节点: master slave',
begin_timedatetimeDEFAULTCURRENT_TIMESTAMPnullcomment'被kill的sql 执行开始时间',
psm_namevarchar(255) default''nullcomment'发起sql的psm',
sql_detailvarchar(2000) default''nullcomment'sql详情',
db_table_namevarchar(255) default''nullcomment'该sql的表名,如果多个表,只取第一个',
sync_timedatetimeNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMPCOMMENT'数据同步时间'
) ENGINE=InnoDB
DEFAULTCHARSET=utf8mb4comment'rds被kill的慢sql数据统计';

Metrics 监控规则

rds 报警订阅的监控只能发现 rds 上执行的 SQL 数据,不能实时发现慢接口。故推荐使用 dbatman 的 metrics 打点来完成慢 SQL 的监控告警工作。

$key="max:toutiao.ttds.dbatman.latency.max{db=sales_manage,port=*,host=*,dc=*}"
$value=max(q($key, "3m", "1m"))/1000
warn=$value>50
runEvery=1

4. 慢 SQL 治理最佳实践与标准制定

慢 SQL 治理优化基本可分为如下 3 类:

  • 优化 shcema
  • 优化索引,尽可能构建三星索引
  • 优化查询,合理的设计查询

相关细则如下所示:

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/225584.html<

(0)
运维的头像运维
上一篇2025-04-16 23:30
下一篇 2025-04-16 23:31

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注