从关联性分析中看根因

另外一种解决问题的方法是优化应用,比如数据库中去优化SQL,这种方法总是有效的,甚至看上去是药到病除的。确实,对于数据库的问题来说,优化SQL几乎可以包治百病。这是因为应用或者对于数据库而言的SQL的不优化,会导致系统负载的增加。比如说我们的身体,在平地上快走小跑都没有任何问题,但是到了高原上,一个壮汉爬个三层楼就喘不上气了。数据库和其他IT基础设施也是如此,当负载低的时候,很多问题都被掩盖了,不会出问题,而负载高了,那么很多病症就明显了,我们也就能看到各种问题了。如果我们通过优化SQL暂时解决了系统的问题,这并不是说我们找到了问题的根因。随着系统负载的逐步增加,等到负载到达了某个临界点之后,这个问题还是会再次出现,因此我们不能仅仅用优化SQL来替代问题的根因分析。如何做根因分析也是十分麻烦的,人工分析的方法一般是观察相关的指标,从与该现象或者某个指标异常相关的指标、相关的维度去逐步发散,最终找出一些蛛丝马迹,然后再用数据去证明其正确性,最终把整个故障影响路径判断清楚,就可以逐步逼近问题的根因了。事实上,这是一个十分复杂的工作,对专家的能力要求很高,专家必须有丰富的经验与理论知识才能较好的完成。下面通过D-SMART的一个工具来看看问题溯源的一种新的快速方法。这种方法要依托于大数据分析与现代硬件的强大的算力。

从关联性分析中看根因

我们看到这套系统的健康状态不是很好,于是对其中的一些问题进行分析。

从关联性分析中看根因

系统负载维度存在的一些问题,我们来看看逻辑读过高的问题。

我们使用智能指标分析工具去做分析。

从这里可以看出,和这个指标关系较大的都属于一类指标,大多数是和TOP SQL有关的。而一些其他因素的关系较远。于是我们初步可以定位为TOP SQL导致了该问题。我们再来看另外一套系统的一个IO延时问题。

这套系统IO延时比同一台存储上的其他系统要高,而且抖动十分频繁。于是我们分析一下产生IO延时抖动的原因。

是不是很容易我们就看出了,这个问题可能和LOB字段的写入有关呢?从这个案例我们可以看到了解决问题根因分析的一个新的途径。那就是通过现在的人工智能的方法,辅助专家分析,其定位速度大大提高。以前一个专家可能需要花几个小时完成的工作,现在可能可以缩短为几分钟。下一步我们还需要进一步优化算法,往前再走一步。那就是把这个专家看一眼的动作也变成自动化动作,这样就能真正实现自动化根因定位了。

从关联性分析中看根因》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:http://www.bookhoes.com/542.html