谈谈B站的SLB故障复盘

王福强

2022-07-16


整篇文章挺好的,也挺详尽,但我总觉得最后的改进措施可能没那么到位。

其实没必要过多强调多活的问题,如果真的是接入层的问题,多少个活着的接入点都没用,不是吗?

至于消防演习,这个是没问题的,早训练,早准备嘛!

我倒是觉得,更应该重视的是研发流程管理,尤其是关键基础设施的测试与上线。

这次的SLB出问题,更多应该是新增根据权重做Load Balance的功能没有经过充分的测试,尤其是precheck。 0和“0”这种情况,我觉得作为典型的边际条件,不应该测试不到啊…

所以,加强研发流程的管理,加强日常的Code Review,加强关键基础设施上线前的测试,可以极大降低SLB(以及其它关键基础设施)出这种问题的概率。

至于消防演习,相当于是有准备、有预谋的拉练队伍,但感觉B站这种,早就应该进入Chaos Engineering的行列了。 从被动到主动, 以进攻做防御,这才是终极的稳定性测试 ^_-

所以,简单总结下,整个事情,我觉得更应该做的三件事的优先级和顺序应该是:

  1. 加强研发流程管理,尤其是关键基础中间件的新增、测试与上线;
  2. 消防演习,锻炼队伍应急响应能力;
  3. 多活,根据情况逐步推进;

以上。


>>>>>> 更多阅读 <<<<<<

订阅「福报Premium订阅」

©王福强个人版权所有, All Rights Reserved.