MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

 

主从延迟的原因

1、某用户在使用数据库过程中,出现主从延迟很大的情况,show slave statusG,已经差了60多个binlog了。MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

2、观察发现,应该是卡在一个大事物上面(Retrieved_Gtid_Set一直在上升,但是Executed_Gtid_Set卡在一个点不动了),通过分析relay_log找到这个大事物:是对表A进行删除操作的一个事物。

Relay_Log_File: relay-bin.000010
Relay_Log_Pos: 95133771

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

看到这里,感觉又是一例在ROW模式下表没有主键,引起的主从延迟。看看表结构确认一下,发现这张表不小,字段有上百个,有主键,且是一张分区表,分区很多。这就有意思了!并不是我们碰到过多次的由于ROW模式下没有主键,DML引起的主从延迟(PS:为什么这种情况下会引起延迟?而是有主键,且走了二级索引,那为什么回放还会这么慢呢?)。

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

后来了解到用户是在存储过程里面调用detele语句来进行归档数据清理,看了一下存储过程,现在的问题就可以简化为:在存储过程中调用delete语句,走了二级索引删除有主键的分区表,从机回放延迟。

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

这个时候,我们需要拆解一下问题,控制好变量,一个一个的查:

1、直接执行delete,SQL会以statement的格式出现,且不会产生主从延迟。

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

2、调用procedure,该delete语句在procedure中执行的时候会变成ROW格式,且会导致延迟。

OK,有以上两个测试,我们的问题可以聚焦为:

1、为什么同样delete语句,直接执行和在procedure里面执行记录的binlog格式不一样(ROW格式的binlog导致回放慢,全局设置在mixed模式下,这条SQL应该走的是statement格式,为什么在procedure里执行就变成了ROW格式,怎么样才能让这条SQL再procedure里执行变成statement记录到binlog里面)。

delete from xxxxx
where update_datetime < DATE_ADD(B_DATE,INTERVAL -1 day)
and DATE_FORMAT(update_datetime,’%i’) not in (’00’,’05’,’10’,’15’,’20’,’25’,’30’);

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

通过show processlist,可以看到这条delete在procedure内部执行的时候,被MySQL自动加上了NAME_CONST函数,所以导致了以ROW模式记录binlog格式。那为什么在procedure中会被改写成这样的SQL呢?怎么样才能让这条SQL记录为statement的格式呢?

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

看了MySQL官方在procedure里面的限制描述,MySQL会自动加上NAME_CONST主要是为了从机可以识别到B_DATE这个SP的Local vairable,不至于从机回放的时候报错。

2、为什么ROW模式的binlog在从库回放的时候,即使delete的这张表有主键也很慢。

我们先看一下SQL线程回放是卡在哪里了?为什么会慢?
通过pstack抓取堆栈,找到SQL_thread线程对应的thread 15,再结合perf信息,可以看到从机回放慢是卡在了bitmap_get_next_set()。

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

看一下bitmap_get_next_set()的代码。

bitmap_get_next_set()都是一些位运算,速度按理来说应该很快。所以不应该是程序卡在了这个函数中,大概率是因为多次调用了这个函数。所以我们再往上层继续看代码。

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

get_next_used_partition(uint part_id) 直接调用了bitmap_get_next_set(),继续往上看。

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

try_semi_consistent_read() 这个函数中出现了可疑的循环,这里会调用m_tot_parts次get_next_used_partition。看了一下定义m_tot_parts是分区表的总分区数!!!

看到这里,就真相大白了。

这个delele的SQL变更的行数大约在300W行左右,总共的分区表数是7200个。那么这里调用bitmap_get_next_set的次数就被放大成了216亿次!

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)
MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

对比以statement格式回放,从机的堆栈信息,并不会进入bitmap_get_next_set。

MySQL分区表复制bug导致的主从延迟(mysql主从复制延迟时间)

解决方案

分析了这么久,怎么处理这么问题呢?

方案1:我们最后在SP中强制制定了session的binlog_format=statement,让这条delete在从机以statement的模式回放,这样就避免触发MySQL中的这个bug。
方案2:修复内核。
方案3:在shell里面去调度,而不使用存储过程

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/114213.html<

(0)
运维的头像运维
上一篇2025-02-17 19:15
下一篇 2025-02-17 19:17

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注