谈谈B站的SLB故障复盘

王福强

2022-07-16


整篇文章挺好的,也挺详尽,但我总觉得最后的改进措施可能没那么到位。

其实没必要过多强调多活的问题,如果真的是接入层的问题,多少个活着的接入点都没用,不是吗?

至于消防演习,这个是没问题的,早训练,早准备嘛!

我倒是觉得,更应该重视的是研发流程管理,尤其是关键基础设施的测试与上线。

这次的SLB出问题,更多应该是新增根据权重做Load Balance的功能没有经过充分的测试,尤其是precheck。 0和“0”这种情况,我觉得作为典型的边际条件,不应该测试不到啊…

所以,加强研发流程的管理,加强日常的Code Review,加强关键基础设施上线前的测试,可以极大降低SLB(以及其它关键基础设施)出这种问题的概率。

至于消防演习,相当于是有准备、有预谋的拉练队伍,但感觉B站这种,早就应该进入Chaos Engineering的行列了。 从被动到主动, 以进攻做防御,这才是终极的稳定性测试 ^_-

所以,简单总结下,整个事情,我觉得更应该做的三件事的优先级和顺序应该是:

  1. 加强研发流程管理,尤其是关键基础中间件的新增、测试与上线;
  2. 消防演习,锻炼队伍应急响应能力;
  3. 多活,根据情况逐步推进;

以上。


>>>>>> 更多阅读 <<<<<<

「为AI疯狂」星球上,扶墙老师正在和朋友们讨论有趣的AI话题,你要不要⼀起来呀?^-^
这里

  1. 不但有及时新鲜的AI资讯和深度探讨
  2. 还分享AI工具、产品方法和商业机会
  3. 更有体系化精品付费内容等着你,加入星球(https://t.zsxq.com/0dI3ZA0sL) 即可免费领取。(加入之后一定记得看置顶消息呀!)

知识星球二维码

存量的时代,省钱就是赚钱。
在增量的时代,省钱其实是亏钱。
避坑儿是省钱的一种形式,更是真正聪明人的选择!
弯路虽然也是路,但还是能少走就少走,背后都是高昂的试错成本。
订阅「福报」,少踩坑,少走弯路,多走一步,就是不一样的胜率!

订阅「福报Premium订阅」