作为全球互联网运营商领军企业,我们不断地努力提高思维、改善流程并改进做事方式,我们的部分工作就是,把著名的ITIL 做事方法和术语引进到我们的工作中。

ITIL 表示信息技术基础架构库,是一个大型的复杂的库,包含一系列标准、术语及流程,这些都是过去20年IT管理方面最佳的经验累积。

尽管大部分的ITIL着重服务于企业或公司系统,但是,很多基本概念及流程在网络界还是很有用的,尤其是用于服务器管理、安全、系统服务、变更管理、监控、故障排除及问题解决的组件。

此外,许多新型的IT相关的软件系统,如帮助台、信息库及安全管理等都是面向ITIL的,这意味着,它们跨越自己的专业界限,采用相同的概念/理念。

在我们继续构建自己的系统、开发自己的流程及创建自己的术语的时候,我们也开始在业务中实践这些理念。

你将发现的第一个问题便是如何界定及区分这两个词语:事故(incident)与问题(problem)。如何区分这两个概念将成为ITIL系统管理的关键,但现在两者的分别还不是很明显,我们只要动脑筋想一下,就知道很难区分了。

事故指系统错误或系统故障。可能是磁盘空间已满、服务器损坏或MySQL崩溃等等。这些都是独立的单次事件,可以采用固定程序进行处理及修复。

相比而言,问题指 的是一种状态,指事故互相联系或有共因的一种现象。这就表明,问题远比事故要严重,需独立跟踪,并从更深层次上寻找原因,解决问题,避免后续事故。如许多 网络服务器的磁盘存储空间都很低,或者某个服务器持续多天磁盘存储空间很低,需采取行动,发现原因并解决问题,避免将来带来更多事故。

处理事故是指修复损坏系统使其尽快恢复工作,而处理问题则指的是,找到潜在根源,杜绝事故发生,或使事故发生次数降低。

区分事故与问题至关重要。因为,很多时候,我们只是修复一个提示(事故),而并没有考虑到导致该事故发生的更深层次的原因,如配置问题、流程问题或其它问题。

由于与其它全球具有最佳实践经验的公司联盟协作,今年,我们会加快此进程,以便更充分地运用ITIL 概念、流程及思维。