新技术从业者应该知道的五件事儿

王福强

2019-11-06



1 二八法则之开发与运维

二八法则适用于世间n多事情,所以自然也适用于技术工作与人群。

对于新的技术从业者来说,也对于新的CEO们来说, 应该知道的一个基本常识是, 一个东西开发完了只是完成了20%的工作,剩下还有80%的工作需要去持续运维。

这意味着,你可以贪多,但一定嚼不烂,因为贪多只是前半段20%的开发工作做完了, 但后面80%没做好就会持续的出问题,到处去救火, 给用户的体验就是你们丫的做的什么烂系统,天天出问题…

给技术新从业者和新CEO们的启示应该是,资源永远有限的情况下(有些人会不认同这个前提),永远去挑那些20%重要的事情去做, 然后对应配置80%的资源去应对,一个点打透,打穿,打出力度。

技术落地上,要看到整个交付链路, 开发完了不算完了, 开发完了还能为后期运维做好铺垫和准备, 进而持续运维好,才算干得漂亮, 天天喊DevOps, 不就是为了让你一通到底,一根到底嘛(😯,不对,一跟到底)

2 不二

我发现韭菜隔很多代之后,沟通上下文完全无法衔接…

参加一次故障复盘会,问所有参会同学知不知道“不二”什么意思, 居然一个都不知道,我日~~~

所以,作为一名老韭菜,只能不胜其烦地再唠叨唠叨, “不二”(阿亮,我不是在喊你,该干啥干啥), 意即不二过(不贰过), 同样的错误你不应该犯两次,更不要说三次四次…

当次复盘会上一名新韭菜居然同样的错误连续一个月犯了4次,嗯, 所以不好意思,只能试用期就送’神’离开了…

作为一名技术人,严谨是最基本的从业品质,我们可以容许犯错,试错,但绝不容忍在同样的错误上连续犯错,所以,不贰过是每个新技术从业者都应该牢记的法则。

3 预防重于治疗

嗯,这也是中医的哲学之一。

为什么强调这个? 其实是因为跟第一条多少有些关系。 很多公司技术故障满天飞,感觉处处都是问题,就是因为技术团队很大程度上在被动应付突发事件,但所谓的突发,其实都是因为自己前期疲于奔命、能应付就应付之后买下的隐患。

开发完了就算完了吗? 没有, 你要持续运维,持续添加metrics和log,持续拉数据盯数据,持续筛选核心环节并择机应对,持续的升级和重构,持续…

但是很多团队其实后面没有持续, 开发完发不完就算交差了,好像大家都在等着故障发生一样, 不发声最好,发生了再解决,发生的多了就虱子多了不痒,来一个应付一个,卧槽, 不知道该说是热闹还是死气沉沉…

这tmd是团队意识的问题,从leader到团队里的工程师,从意识上到行为上都有问题,其实只要把一些事情提前做到前面去,就不用小故障不断,大故障按天算…

我记得十五六年前我刚入行的时候, 从日本人那里学来一招方法实践很朴素也很有效,就是写手顺书。

啥事手顺书? 其实就类似于今天说的检查清单(Checklist),我们当时系统上线上生产环境也是战战兢兢,后来为了保障少出故障多睡觉(嗯,那时候我们就996了, 甚至9126都是小意思), 我们就要去上线任何功能之前先要把上线步骤和准备都落实到纸面上,第一步做什么,第二步做什么, …, 最后再做什么(检查),你还别说,就这一个简单的小方法, 故障率基本上成直线下降。

但为什么今天还是有很多人,很多技术团队,很多公司再犯同样的错误呢?为什么就一个简单的意识+方法前期就解决掉80%的隐患而无人用呢? mmp,还不是因为不是同一茬韭菜?!黑格尔都tmd说的废话, “人类从历史中所得到的教训就是:人类从来不吸取历史教训。”, 人类是大类的统称, 架构上可以抽象,落实到具体的实现,还是得不同时代的韭菜去落实, 当然不会吸取历史的教训咯, 难道你丫组成人类的永远是长命百岁的千岁万岁的同一批人?

与其扯这些没用的,还不如让智慧和文化传承下去,让新的韭菜从教训里学习、总结、进步~

手顺,大家要不事前多写写?!

4 不信任任何第三方系统或者组件

这还是当年在阿里巴巴平台技术部的时候,作为新韭菜,从钱总那里学来的原则。

设计一个系统,这个系统总是要跟第三方系统打交道,也很大程度上会依赖于第三方组件或者系统, 这个时候,要保障自己系统的稳定和平稳运行,就得时刻牢记“不信任任何第三方系统或者组件”这个原则。

这就好比你走在路上,你要为自己的安全负全责,虽然有交通法规,但不是所有人都会遵守,你说真要有点儿三长两短,你是埋怨交通法规呀,还是埋怨交通肇事者呀? 更甚至于你没有了埋怨的机会..

所以,要“独善其身”就不要埋怨第三方,永远自己多想想,多看看,多做一些,埋怨是带不来任何你想要的结果的。

如果系统故障又一半是第三方系统或者组件导致的,那么, 还有一半空间你是可以把控和改善的不是吗? 更甚者, 选择哪些第三方亦或不选,决策上你是不是也有呢?

这是一个不完美的世界,预期抱怨第三方,不如多从己方找找原因和解决方案更务实一些。

5 意识,意识,意识

天天喊“知行合一”, 什么是知?意识到了才算是知,做事之前意识不到位,事情能做好才怪。

敬畏生产环境, 这算意识到位, 啥事儿都觉得很简单,这叫意识有问题。

多少生产事故不是因为当事人的疏忽和意识不到位造成的?

电工不敬畏基本作业规则被“比卡丘”的见过吧?

车间里不敬畏机器造成的悲剧也不少见吧?

改几行代码上线把所有服务器内存撑爆的也见识过了吧?

你能说这些人没有专业能力吗? 肯定有,但意识不到位,一切都白搭。

意识,怎么强调就不为过,首先得意到,才有事成。