语雀为什么崩了?
王福强
截至目前,还没有一个正式的说法,但我们可以从零星的信息中挖掘出一些潜在的可能性。
系统层面
一开始的访问返回页面是没有的,只有浏览器端给出的网络层面的信号,所以,直觉上会让人觉得是不是DNS的问题,甚至有人谣传域名过期,但其实查一下公开记录,yuque的域名得到2024年才会过期,所以DNS层面的问题排除。
那下一步就是直接打到流量接入层,这一层在一开始肯定是挂了的,因为第二阶段发挥的页面是nginx的502状态码页面,这意味着,流量接入层的SLB已经恢复,nginx作为reverse proxy也已经恢复,但后端的应用没有恢复。
至此,基本上可以确认是整个语雀的应用挂掉了,而且从前端到服务到数据库,有可能都受到影响,但服务和数据看不一定有问题,前端应用一定是挂了,否则,不会卡在502这么长时间而恢复不了。
至于用户会担心数据安全,这个,按照福强老师从业20+年的经验来说,问题应该不大,有点儿分布式系统设计常识的,应该不会犯这种致命错误。
人与组织层面
据说语雀的负责人离职跑字节了(我没有考证,纯粹听说),那有没有可能是整个产品和技术团队塌方式崩塌? 但翻脸应该也不至于这么无底线吧,就算产品打算停掉不做了,也总得给用户备份留个时间窗口吧? 希望不是这种原因。
但人层面的影响通常是比较大的,尤其是负责人这个层面, 先不说能力是在人身上,这日常运营和流程也都得人去跟,前阵子还看到说某个公司的ERU(应该是Emergency Response Unit,应急小组的意思)就剩下2个人,其实多少也反映了裁员大潮下,日常运营和流程会受到什么样的影响了。
趋势层面
我在《坑获》里提到一个概念叫“雪锦霜花定律”,其实就是事态的发展“要么雪上加霜,要么锦上添花”, 而现在经济L型与公司都裁员保命的趋势下,雪上加霜的事儿肯定是少不了了。
希望语雀的这次事件不是雪崩的第一朵雪花,阿门…
「福强私学」来一个?
「福强私学」, 一部沉淀了个人成长、技术与架构、组织与管理以及商业上的方法与心法的百科全书。
开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。