搞容器混搭搞出了线上 Redis 事故什么的

搞容器混搭搞出了线上 Redis 事故什么的

作者:神经元 2015-10-14 10:29:43

云计算

Redis 事情是这样的, 现在有一个 redis 3.0 集群节点都是裸 redis 或 host 网络模式部署的容器 redis (基本上跟裸 redis 差不多), 需要把它们替换成 macvlan 网络模式的 redis 容器, 以显得我们的 dockerized redis cluster 很上档次。然而……

事情是这样的, 现在有一个 redis 3.0 集群节点都是裸 redis 或 host 网络模式部署的容器 redis (基本上跟裸 redis 差不多), 需要把它们替换成 macvlan 网络模式的 redis 容器, 以显得我们的 dockerized redis cluster 很上档次.

这事情几个月前也搞过一次毫无压力.

然而这一次又搞, 就出岔子了. (这剧本不对啊摔)

于是开始加了两个 macvlan 的容器到上述 redis 集群作为从节点, 打算稍候 failover 替换掉主, 过了十分钟左右群里炸毛, 说数据都取不到, 或者格式不对…

上线一查, 发现正在加从节点的这个集群跟另一个集群的节点混到一起去了.

这里吐槽一下 redis 集群的协议, 两个正常服务的集群可以直接通过一个 cluster meet 合并成一个集群, 然后槽位分布乱了…

首先当然是紧急恢复线上业务, 先拉一个新集群出来再说 (所幸这个集群的数据不需要持久化).

结果, 新集群刚弄出来, 又被合进了上面那个集群. (这时我满脑子都是某个科教片里两个星系合并的一段视频, 满天都在炸! (论脑洞

然后 cluster nodes 看了一下, 发现集群里有几个节点地址变成了 172.17.x.x, 这应该是 docker 的内部网段地址, 所以反应过来, 可能是 docker 网络配置问题, 将握手流量发给了错误的节点, 然后那些节点被并了进来.

这时候创建一个新网段有点来不及了 (还打了个电话给已经请假回家的 @小六哇啦啦 老师…) 换了个思路, 把新 redis 换个端口部署, 再组个集群, 观察了一会儿, 这方法起作用了 -.-!!

恢复了被炸得鸡飞狗跳的线上业务之后, 就开始排查问题了.

线索还是之前 cluster nodes 看到的那个 172.17.x.x 网段, 测试确认了一下, 从 docker 容器内连宿主机, 宿主机 accept 得到的会是 172.17.x.x 这个地址. 而容器内路由表是这样的

 

确实如果宿主机的 IP 是 10.100.1.100 那么流量走的是 eth0 也就是 172.17.x.x 网卡. (10.222.0.0/16 是容器 macvlan 地址)

之后就明白了, 172.17.x.x 这样的网卡地址在不同物理机上是可能相同的. 也就是说, 遭遇的问题可能是如下过程所致

 

  • 四个 redis #a #b #c #d
  • #a #b 是两个 host 网络的 redis, 在同一个集群中, #d 是 macvlan 部署的 redis, 在另一个集群中
  • #c 是一个空闲的 redis, 它与 #d 恰好有相同的 eth0 地址
  1.  #c 通过 eth0 向 #a 发送了一个 handshake
  2.  #a 确认, 这时, 它认为 #c 的地址是 172.17.0.55
  3. #a 将新节点地址广播给 #b
  4. #b 向 172.17.0.55 发送一个握手请求, 然而, 此地址在它所在机器上对应的是 #d, 之后两个集群就混一起去了

这也解释了为啥几个月之前这么搞的时候没出问题, 应该是那时候运气好没有相同地址的容器; 同时也解释了为啥不是每个纯 macvlan 模式的 redis 集群都中枪.

后来在测试机房找了两个恰好相同网卡的容器, 按上述思路搭了集群试了试, 果然重现了.

解决方案

  • 因噎废食 : 以后别这么混搭玩了
  • 绕过 : 端口号不一样法
  • 改默认路由 : 默认就走 vlan 网卡, 不过这样的话不能访问外网, 对 redis 而言没问题, 但其他业务可能就不行了
  • 加路由 : 其实可以通过在容器内加一条路由 10.100.0.0/16 走 vlan 这样宿主机 accept 到的地址就会是机房***的 vlan 网卡地址了, 这个方案 @CMGS 正在评估中

EOF

原文链接:http://m.douban.com/note/520415058/?bid=Mk5VloIg3M8&from=groupmessage&isappinstalled=0&ADUIN=187366795&ADSESSION=1444702325&ADTAG=CLIENT.QQ.5431_.0&ADPUBNO=26497

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/292078.html<

(0)
运维的头像运维
上一篇2025-05-19 23:52
下一篇 2025-05-19 23:53

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注