骞云科技:假如GitLab使用CMP管理PostgreSQL

  • 事件概览

1月31日晚上,GitLab通过Twitter发文承认生产环境数据因为UNIX运维的误操作,已经被彻底删除,大致的事情经过是一名系统管理员在荷兰工作到深夜,在他发现GitLab的备用数据库db2无法写入后,为了能让数据库复制可以继续,疲惫不堪的他经过分析后决定清除db2.cluster.gitlab.com中的备用数据库db2,不幸的是他选错了数据库的服务器,他把生产服务器db1.cluster.gitlab.com中的db1数据库目录删除了,这是一个含有300GB活动生产数据的目录,其中大部分数据已丢失。GitLab随后在Blog中补充说明已挽回大部分数据,并在YouTube上开启直播,将恢复工作全部公开。

  • 事件引发的思考

此事一出,在整个IT界掀起了轩然大波,骞云科技(www.cloudchef.io)认为,在关心事态进展的同时,我们更应该思考出现这类问题的原因以及今后如何防范、处理。

首先,我们可以了解到,在这一过程中,GitLab的系统管理员出现了以下失误:

1. 在错误的机器上执行删除操作, rm -rf,应该在备用Postgres所在的机器上进行删除操作

2. 在文件系统中直接删除数据库文件目录,应该是执行数据库的操作清空数据库

3. 备份缺乏验证的错误,GitLab部署的5套备份/复制方法中,没有一套在可靠运行或当初设置正确

假如Gitlab用了自动化的手段来管理他的数据库,而不是在生产线上敲键盘这样的人肉运维,结果又会如何呢?一个公司运维能力的强弱和线上环境敲命令是有关的,你越是喜欢上线敲命令你的运维能力就越弱,越是通过自动化来处理问题,你的运维能力就越强。真正良性的运维能力是——人管代码,代码管机器,而不是人管机器。

  • 使用CMP来管理数据库

在传统的运维中,系统管理员一般会用终端窗口远程登录管理的机器,然后运行各种脚本进行运维操作,这种管理依赖于系统管理员本身去区分什么时候应该在哪台机器的应用上进行操作,当管理到多个机器,系统管理员需要在多个终端下切换。对于系统管理员,为了不出错,他要做到的事情很多,例如:

1. 必须时刻牢记哪台机器上部署了哪个应用,是生产环境的应用还是备份环境的

2. 必须清楚的知道,当前应用处于什么状态,能进行什么操作

3. 必须清楚的知道各个应用之间的关系,当要在一个应用上运行脚步时,对别的应用会造成的影响

在这个过程中,任何一步都不可以出错,单单依靠人力很难保证。

针对企业IT基础架构管理与运维中出现的问题,Gartner提出CMP(Cloud Management Platform,云管理平台)的解决方案,并指出了CMP的发展历程:

作为以应用为核心的第三代CMP的代表,骞云科技(www.cloudchef.io)在SmartCMP中引入了组件与蓝图的概念,组件是对一个可部署的应用的抽象与建模,组件有自己的生命周期,从创建、配置、启动、停止到销毁,在它生命周期的每个阶段,都可以有对应的操作(也就是可执行的脚本文件)和它绑定关联,这些操作都是预定义好的,在投入生产环境前就已经进行过验证。以定义PostgreSQL数据库组件为例,可以定义它在创建、配置、启动、更新参数、清空以及备份等阶段的操作。

下面的图例给出了在SmartCMP中PostgreSQL的组件定义:

通过这一定义,即使是非专业的数据库管理员,也可以执行这些预定义的简单明了的操作。

在实际的生产环境中,部署在一台机器上的单一组件是不够的,例如PostgreSQL,一般需要提供复制(Replication)或者集群(Cluster)的功能,GitLab就使用到了PostgreSQL的复制功能,也随之产生了这次的运维问题。对应的,CMP中的蓝图对这些功能可以进行抽象的描述,同时,CMP的编排引擎会依据蓝图中的抽象进行部署和组件操作的执行。

以PostgreSQL复制功能为例,如下图所示,PostgreSQL被部署在了DatabaseServer这个虚拟机中,同时在ReplicationDatabaseServer虚拟机中部署了备用PostgreSQL,绿色的虚线标示出了它们之间的依赖关系。当PostgreSQL按照蓝图被实际部署后,各个组件遵从蓝图中预定义的关系,用户可以选中某一个组件,得到该组件可执行的操作列表,然后执行某一个操作。

回到Gitlab运维中出现的问题,Gitlab的系统管理员在使用CMP后,如果发现db2.cluster.gitlab.com中的备用数据库db2无法写入,在蓝图中选择备用PostgreSQL,进行数据库清空操作,SmartCMP在进行这种破坏性的操作前,会自动先给db2所在的虚拟机db2.cluster.gitlab.com创建一个快照,然后再进行相应的操作。如出现Gitlab公开的描述中所说的清空后备份数据库db2仍然不能写入,我们可以在操作列表中选择删除db2后再安装,这样就会生成一个全新的备用数据库,当然,在删除和安装前,SmartCMP都会自动创建虚拟机快照以防止意外发生。

试想一下,如果Gitlab的系统管理员在CMP中仍然犯错选择了对生产数据库进行清空或者重装操作,那么在他发现问题后可以立即从快照中恢复原有的数据。

显而易见,CMP模块化了运维管理,将具体的操作和组件进行了绑定,尽可能的降低了各个组件之间的耦合,简化了运维的难度。

随着自动化运维和开发运维一体化的快速普及,企业唯有借助以应用为核心的云管理平台,实现从部署到管理(包括监控、报警、备份、恢复等环节)的完整生命周期管理,才能真正地提高工作效率与操作的合规性,避免Gitlab类似事件的发生。

更多精彩内容欢迎关注骞云科技微信公众号:

 

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/266025.html<

(0)
运维的头像运维
上一篇2025-05-05 18:40
下一篇 2025-05-05 18:41

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注