温故知新–G行EverDB自动化混沌测试之路

EverDB是G行自有知识产权、与合作伙伴共研的一款基于中间件的分布式数据库产品。在分布式架构优势下实现了数据库的可扩展性,但与优势并存的是,分布式架构组件多,集群规模大,组件或节点间有着各种调用或相互依赖,使得系统异常事件的发生概率大幅攀升。

为尽早发现系统薄弱点,做出弥补改进,我们在分布式数据库测试中引入了混沌工程理论。通过在系统环境中模拟故障,来观察故障的发生对系统产生的影响,以期提前发现系统潜在的问题与风险,针对性的对系统进行加固防范,这种测试方法被称为混沌测试。本文为大家分享基于GitLab CI的自动化混沌测试实践。

混沌测试技术架构

为实现混沌测试的敏捷性、灵活性和自动化,我们选择了云原生技术方案,整个混沌测试运行于k8s平台,使用容器化技术Docker实现EverDB集群的容器化部署、Chaos Mesh实现故障注入、Argo workflow实现混沌测试流程编排、Prometheus+Grafana实现监控数据采集存储和可视化。它们在k8s上的部署及连接关系如下图1所示。

图1 EverDB混沌测试部署架构图

其中,Argo workflow是整个混沌测试流程的总调度单元,无论是集群拉起还是故障注入,任何一个任务环节都在Argo workflow中进行规范定义。Argo-server会依据我们定义的任务流程调度k8s资源(包括job,Statefulset,Chaos等)。

自动化流程设计实现

当前,EverDB代码库托管于GitLab平台。EverDB每次发版前通过GitLab CI进行功能回归测试。为保持技术方案统一,我们将混沌测试集成到GitLab CI,由开发人员在代码提交后自动触发执行,实现了EverDB发版前的自动化混沌测试。同时,考虑bug触发的偶发性,混沌测试也被配置为周期性任务,通过重复实验验证数据库的可靠性。

图2 EverDB混沌测试流程设计

上图2即是EverDB的混沌测试流程设计,实现依托于GitLab和k8s两大平台,Chaos Mesh、Argo workflow两个关键技术组件。主要包括Gitlab CI配置、EverDB集群部署、测试用例拉起、故障注入、测试报告生成和可视化跟踪六个部分。 

Gitlab CI配置

EverDB容器化集群及Chaos Mesh故障注入等组件均布置在k8s环境中,为了方便调度,我们将CI任务的执行器(GitLab CI runner)也部署到k8s环境中,由它在k8s环境中调起测试流程。GitLab CI runner任务如下图3。

图3 Gitlab CI任务流程

GitLab CI任务实际是执行了一个python脚本调起了一个混沌测试工作流。该脚本完成的工作有四部分:

参数解析处理,读取用户在CI任务中的设定的实验参数、配置文件并解析;

  1. 工作流模板渲染,利用第一步读取的配置参数,按照工作流模板渲染生成工作流;

  1. 工作流部署,将工作流部署到k8s平台运行;

  1. 持续检查工作流状态,将工作流的运行状态,成功与否反馈到CI平台。

EverDB集群部署

源代码提交时触发CI任务进行EverDB集群部署,包括源代码编译、制作镜像上传至镜像仓库、使用最新镜像在k8s平台上部署EverDB集群。对于混沌测试周期性任务,则从镜像仓库中拉取最新的EverDB镜像进行部署。

图5 EverDB源码编译打包上传

测试用例拉起

EverDB集群部署完成后,CI任务会按照实验编排有序拉起测试用例。测试用例分为功能、性能和高可用三类,通过对比EverDB在正常运行态和故障注入后运行态的各项测试指标,验证数据库对各种异常场景的处理能力和健壮性。

测试用例

测试内容

压力测试

Sysbench

OLTP基准测试

数据库一致性测试

Bank

并发转账,验证测试完成后账户余额总数

Bank2

增加事务竞争度控制的Bank测试

Pbank

记录每次读写事务的操作以及返回结果

Tpc-c

五种事务模型并发执行

数据库隔离级别测试

Elle

并发读写寄存器,检查是否违反一致性模型

高可用测试

Hatest1-18

测试各种故障场景,验证数据库高可用性是否符合预期

表1 测试用例表

故障注入

故障注入通过调用PingCAP开源的混沌测试工具Chaos Mesh实现。Chaos Mesh使用Kubernetes CRD来定义Chaos对象资源,在EverDB混沌测试中,可以直接调度这些Chaos资源,模拟简单的故障场景,也可以对这些基础Chaos资源进行编排,构造更复杂的故障场景。

图6  故障注入支持类型

测试报告生成

测试用例在整个测试周期内持续运行,实现数据库能力测试方案的同时,也会采集测试指标数据并进行转储。测试结束后,测试报告生成模块会进行数据收集、分析、报告生成及归档。目前测试报告包括测试结论、环境参数和EverDB集群配置等信息,后续会随着混沌测试实践的深入,对结果信息进行丰富和优化。

图 7 测试结果收集

可视化跟踪

除了输出测试报告以外,我们也可以使用可视化的Dashboard、监控系统等工具,对整个混沌测试过程进行实时跟踪和观察。

图8 一个EverDB混沌测试工作流示例

总结与期待

EverDB通过引入混沌测试,已在可靠性提升上有了一定的测试成果,同时我们对混沌测试的未来也进行了思考与规划。在测试扩展方面,不断丰富测试用例、编排更复杂的故障场景、完善测试报告内容;通过建设混沌实验平台使混沌测试常态化、便捷化;同时建立混沌测试文化,使其在G行分布式架构转型中发挥更大的作用。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/226396.html<

(0)
运维的头像运维
上一篇2025-04-17 08:38
下一篇 2025-04-17 08:40

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注