Ceph集群磁盘无剩余空间的解决方法

Ceph集群磁盘无剩余空间的解决方法

2015-05-13 09:57:47

云计算 OpenStack + Ceph集群在使用过程中,由于虚拟机拷入大量新的数据,导致集群的磁盘迅速消耗,没有空余空间,虚拟机无法操作,Ceph集群所有操作都无法执行。本文提出两种解决办法,供大家参考。

[[133969]]

故障描述

OpenStack + Ceph集群在使用过程中,由于虚拟机拷入大量新的数据,导致集群的磁盘迅速消耗,没有空余空间,虚拟机无法操作,Ceph集群所有操作都无法执行。

故障现象

  • 尝试使用OpenStack重启虚拟机无效
  • 尝试直接用rbd命令直接删除块失败

 

  1. [root@controller ~]# rbd -p volumes rm volume-c55fd052-212d-4107-a2ac-cf53bfc049be 
  2. 2015-04-29 05:31:31.719478 7f5fb82f7760  0 client.4781741.objecter  FULL, paused modify 0xe9a9e0 tid 6
  • 查看ceph健康状态
  1. cluster 059f27e8-a23f-4587-9033-3e3679d03b31 
  2.  health HEALTH_ERR 20 pgs backfill_toofull; 20 pgs degraded; 20 pgs stuck unclean; recovery 7482/129081 objects degraded (5.796%); 2 full osd(s); 1 near full osd(s) 
  3.  monmap e6: 4 mons at {node-5e40.cloud.com=10.10.20.40:6789/0,node-6670.cloud.com=10.10.20.31:6789/0,node-66c4.cloud.com=10.10.20.36:6789/0,node-fb27.cloud.com=10.10.20.41:6789/0}, election epoch 886, quorum 0,1,2,3 node-6670.cloud.com,node-66c4.cloud.com,node-5e40.cloud.com,node-fb27.cloud.com 
  4.  osdmap e2743: 3 osds: 3 up, 3 in 
  5.         flags full 
  6.   pgmap v6564199: 320 pgs, 4 pools, 262 GB data, 43027 objects 
  7.         786 GB used, 47785 MB / 833 GB avail 
  8.         7482/129081 objects degraded (5.796%) 
  9.              300 active+clean 
  10.               20 active+degraded+remapped+backfill_toofull
  1. HEALTH_ERR 20 pgs backfill_toofull; 20 pgs degraded; 20 pgs stuck unclean; recovery 7482/129081 objects degraded (5.796%); 2 full osd(s); 1 near full osd(s) 
  2. pg 3.8 is stuck unclean for 7067109.597691, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  3. pg 3.7d is stuck unclean for 1852078.505139, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  4. pg 3.21 is stuck unclean for 7072842.637848, current state active+degraded+remapped+backfill_toofull, last acting [0,2
  5. pg 3.22 is stuck unclean for 7070880.213397, current state active+degraded+remapped+backfill_toofull, last acting [0,2
  6. pg 3.a is stuck unclean for 7067057.863562, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  7. pg 3.7f is stuck unclean for 7067122.493746, current state active+degraded+remapped+backfill_toofull, last acting [0,2
  8. pg 3.5 is stuck unclean for 7067088.369629, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  9. pg 3.1e is stuck unclean for 7073386.246281, current state active+degraded+remapped+backfill_toofull, last acting [0,2
  10. pg 3.19 is stuck unclean for 7068035.310269, current state active+degraded+remapped+backfill_toofull, last acting [0,2
  11. pg 3.5d is stuck unclean for 1852078.505949, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  12. pg 3.1a is stuck unclean for 7067088.429544, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  13. pg 3.1b is stuck unclean for 7072773.771385, current state active+degraded+remapped+backfill_toofull, last acting [0,2
  14. pg 3.3 is stuck unclean for 7067057.864514, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  15. pg 3.15 is stuck unclean for 7067088.825483, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  16. pg 3.11 is stuck unclean for 7067057.862408, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  17. pg 3.6d is stuck unclean for 7067083.634454, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  18. pg 3.6e is stuck unclean for 7067098.452576, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  19. pg 3.c is stuck unclean for 5658116.678331, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  20. pg 3.e is stuck unclean for 7067078.646953, current state active+degraded+remapped+backfill_toofull, last acting [2,0
  21. pg 3.20 is stuck unclean for 7067140.530849, current state active+degraded+remapped+backfill_toofull, last acting [0,2
  22. pg 3.7d is active+degraded+remapped+backfill_toofull, acting [2,0
  23. pg 3.7f is active+degraded+remapped+backfill_toofull, acting [0,2
  24. pg 3.6d is active+degraded+remapped+backfill_toofull, acting [2,0
  25. pg 3.6e is active+degraded+remapped+backfill_toofull, acting [2,0
  26. pg 3.5d is active+degraded+remapped+backfill_toofull, acting [2,0
  27. pg 3.20 is active+degraded+remapped+backfill_toofull, acting [0,2
  28. pg 3.21 is active+degraded+remapped+backfill_toofull, acting [0,2
  29. pg 3.22 is active+degraded+remapped+backfill_toofull, acting [0,2
  30. pg 3.1e is active+degraded+remapped+backfill_toofull, acting [0,2
  31. pg 3.19 is active+degraded+remapped+backfill_toofull, acting [0,2
  32. pg 3.1a is active+degraded+remapped+backfill_toofull, acting [2,0
  33. pg 3.1b is active+degraded+remapped+backfill_toofull, acting [0,2
  34. pg 3.15 is active+degraded+remapped+backfill_toofull, acting [2,0
  35. pg 3.11 is active+degraded+remapped+backfill_toofull, acting [2,0
  36. pg 3.c is active+degraded+remapped+backfill_toofull, acting [2,0
  37. pg 3.e is active+degraded+remapped+backfill_toofull, acting [2,0
  38. pg 3.8 is active+degraded+remapped+backfill_toofull, acting [2,0
  39. pg 3.a is active+degraded+remapped+backfill_toofull, acting [2,0
  40. pg 3.5 is active+degraded+remapped+backfill_toofull, acting [2,0
  41. pg 3.3 is active+degraded+remapped+backfill_toofull, acting [2,0
  42. recovery 7482/129081 objects degraded (5.796%) 
  43. osd.0 is full at 95
  44. osd.2 is full at 95
  45. osd.1 is near full at 93

#p#

解决方案一(已验证)

增加OSD节点,这也是官方文档中推荐的做法,增加新的节点后,Ceph开始重新平衡数据,OSD使用空间开始下降

  1. 2015-04-29 06:51:58.623262 osd.1 [WRN] OSD near full (91%) 
  2. 2015-04-29 06:52:01.500813 osd.2 [WRN] OSD near full (92%) 

解决方案二(理论上,没有进行验证)

如果在没有新的硬盘的情况下,只能采用另外一种方式。在当前状态下,Ceph不允许任何的读写操作,所以此时任何的Ceph命令都不好使,解决的方案就是尝试降低Ceph对于full的比例定义,我们从上面的日志中可以看到Ceph的full的比例为95%,我们需要做的就是提高full的比例,之后尽快尝试删除数据,将比例下降。

  • 尝试直接用命令设置,但是失败了,Ceph集群并没有重新同步数据,怀疑可能仍然需要重启服务本身
  1. ceph mon tell \* injectargs '--mon-osd-full-ratio 0.98'

修改配置文件,之后重启monitor服务,但是担心出问题,所以没有敢尝试该方法,后续经过在邮件列表确认,该方法应该不会对数据产生影响,但是前提是在恢复期间,所有的虚拟机不要向Ceph再写入任何数据。

默认情况下full的比例是95%,而near full的比例是85%,所以需要根据实际情况对该配置进行调整。

  1. [global] 
  2.     mon osd full ratio = .98 
  3.     mon osd nearfull ratio = .80 

分析总结

原因

根据Ceph官方文档中的描述,当一个OSD full比例达到95%时,集群将不接受任何Ceph Client端的读写数据的请求。所以导致虚拟机在重启时,无法启动的情况。

解决方法

从官方的推荐来看,应该比较支持添加新的OSD的方式,当然临时的提高比例是一个解决方案,但是并不推荐,因为需要手动的删除数据去解决,而且一旦再有一个新的节点出现故障,仍然会出现比例变满的状况,所以解决之道***是扩容。

思考

在这次故障过程中,有两点是值得思考的:

  • 监控:由于当时服务器在配置过程中DNS配置错误,导致监控邮件无法正常发出,从而没有收到Ceph WARN的提示信息
  • 云平台本身: 由于Ceph的机制,在OpenStack平台中分配中,大多时候是超分的,从用户角度看,拷贝大量数据的行为并没有不妥之处,但是由于云平台并没有相应的预警机制,导致了该问题的发生

参考文档

http://ceph.com/docs/master/rados/configuration/mon-config-ref/#storage-capacity

 

博文出处:http://blog.csdn.net/xiaoquqi/article/details/45539847

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/252309.html<

(0)
运维的头像运维
上一篇2025-04-29 09:21
下一篇 2025-04-29 09:22

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注