从疫情防控说起

这两天深圳机场刚刚消停,南京机场又遇到疫情了,让我这个奔波于深圳南京的人十分受伤。按照防控要求,今天只能远程办公,并且去做一次核酸检查了。可能有人要吐槽,为什么一出现病例,不管三七二十一,就开始全员核酸检查。这样不是劳民伤财吗?还有更好的防控措施吗?答案很明显,肯定是没有更好的防控措施了,目前的措施虽然严格,但是已经是最好的方式了。因为一旦疫情传播开来,后果不堪设想。
为什么会这样呢?首先我们对病毒的机理研究还比较粗浅,对其传播途径与感染原理的研究仍然处于初级阶段。因此我们只能采取成本略高的这种全员筛查,严格隔离的办法。其实对于IT运维也是如此,如果我们对于某些问题的机理没有研究清楚,那么我们也只能像当前的防疫一样,采取成本更高,更为谨慎的办法去处置。原本可以在线做的事情,必须停库停机去做,原本三分钟搞定的事情,在一大堆防范措施加上去后,两三个小时搞不定。
昨天一个客户的一套分布式存储的某个节点的内存出现了一些问题,想要更换这个节点的内存,于是询问我们的工程师,是不是要把分布式存储停了再做,还是可以在线做。我们的小伙子就有点慌乱了,觉得一旦出现一些不可知的问题,那么很可能就会出大事。于是我帮他分析了一下这个问题。
首先,这套分布式存储是十分稳定的,本身是稳定和安全的,我们应该可以信任这套存储系统本身,这是基础。如果这套系统本身就是不安全和稳定的,那么后面的一切都是不确定的了。其次是我们能不能确定这套存储的10个节点中有几个节点是存在问题的,如果只有一个,那么风险是可控的,所以我们第一步需要检查所有节点的OS日志,确认只有一个节点存在问题。第二,我们要确定存储的容量是足够的,当这个故障节点离线后,存储REBALANCE是不会遇到容量问题的。如果当前存储容量已经十分紧张,那么安全起见,哪怕算下来容量还是勉强够的,对于如此关键的核心系统来说,最好是先加入一个节点,然后再离线这个存在隐患的节点,否则我们大可放心的离线这个节点去维修就行了。
梳理完这些问题后,大家觉得这件事也不是什么大事了。在IT运维领域,很多恐慌都来自于未知,只要你真正了解所运维的系统,理解其运作的基本原理,那么你就可以从其原理去考虑问题,预判各种可能性,从而比较理性的对待每个运维事件了。
这也是我们一直强调,自动化运维,智能化运维应该从理解IT系统的原理入手,而不能仅仅从数据入手的主要原因。了解了故障衍生路径,我们才能知道某些故障的危害以及检测方式,才能形成高质量的运维诊断路径。如果我们不了解这些东西,仅仅从数据的异常上去猜测某种问题的可能性,那么效率肯定是不高的。
就像疫情防控一样,如果我们深入了解了这个病毒的传播原理,就能提高我们的防疫质量,就能更为准确的给与大众防疫指导,什么情况下一定要戴口罩,什么样的场合必须戴什么样的口罩,甚至可以研发出一些药物,在鼻子里滴几滴,口中含服一片药片,就能在某些时间内获得很强的防疫效果。因为我们目前对病毒还没有充分认知,所以这一切还是一个梦想,目前我们还只能采取较为简单粗暴的方式来防疫。对于运维自动化也是如此,我们对某个现象都有发现、研究分析,找到根因,找到优化方法这样一个循序渐进的过程。昨天我们一个在客户现场做POC的兄弟反馈回来说,客户的一个测试环境中,压测到CPU 90%的时候,负载就上不去了,我们的产品无法分析出其中的原因,客户希望我们的采集分析粒度再细一些。在产品POC的时候能够发现我们的分析能力的不足是很好的事情,没有一个产品中能够预置满足客户所有需要的知识与能力。作为一个“运维知识自动化系统”,快速的迭代新的知识其实也是一种能力,如果几天后,这个诊断能力就在系统中出现了,不是也很不错吗?

从疫情防控说起》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:http://www.bookhoes.com/1254.html