根本原因分析(Root Cause Analysis)——RCA。每个人都拥有它,或者应该拥有它。事实上,很多工具开发者都想配备这样的系统或流程,但据我们所知,多数工具都没有什么根源,更没有什么原因分析。这是怎么回事?

从理论上说,RCA非常简单。认真检查问题、故障或警报,确定一种或多种根本原因,包括系统内部(技术)与外部(通常为非技术)的原因。这些工作通常由专家完成。他们往往缺乏充分数据,经常拍拍脑袋就得出结论。他们努力确定依存关系与时间序列链、因果关系、行星排列图,再运用丰富的知识搞清楚到底出了什么问题。

今天,许多系统都提供“RCA”特性,我原本以为这些特性多少能够进行以上分析——但是看起来,它们并没有分析能力。 它们所做的是尽力提供更多信息,以便别人做出更好的RCA决策。这就好比说,为了修好你的车,我们提供更好用的扳手。数据当然多多益善,但是对域和依存关系的了解,以及细致入微的知识更重要。

我们负责设计、构建以及(更重要的)管理大型互联网系统,我们每天都要进行根本原因分析,通常要面对混乱的系统,问题一团乱麻,文件七零八落,而这时候你还宿醉未醒。通常是在凌晨三点这种大半夜,系统彻底崩溃时,才想到:我们需要更好的工具。

为此,我们开发出真正的RCA工具,对情况进行切实分析,了解特定域的实际关系与典型事件序列,如运行PHP的web/应用服务器,这些服务器经常会以可预见的方式出现关键资源不足的问题。也可能是了解这些域的磁盘空间、数据库或IO RCA工具。

这些工具能够进行真正的根本原因分析,对实际原因和序列给出最佳估测,从而直接促进最佳解决方案的出台,或自动修复问题。更先进的版本还能够告诉用户得出结论的过程。

所有这些都隶属于我们的云运维平台OpsStack——为客户设计、构建、管理、监控、诊断、调节、保护现代化大型复杂系统。

真正的RCA。不要迟疑,值得一试。

立即申请免费试用系统运维管家