通过增加新服务、新流程及新程序,我们不断地提升对客户的支持/服务质量。由于一直不断地从自己及他人的错误中吸取经验教训,所以,在关于管理/检测全球大型系统的新书、新博客及大型会议方面,我们都力争走在最佳实践的前列。

一 切均可自动运行,并免费提供给客户。例如,我们最近开启了用于针对iptables跟踪问题的syslog实时检测,以及针对文件系统的事件检测。上述问 题会给繁忙的系统带来麻烦,但是,现在通过事件跟踪,仅需一秒钟,便可通过我们的分布式syslog系统检测到这些问题。我们将扩展这一先进系统,以便检 测不同类别的syslog问题,而要检测到这些问题,依赖标准的监控应用程序,如Nagios 或Cacti通常是无法实现的。

这 一先进的系统使我们能够对主机的FPM 头部进行检查、发出软IRQ(中断请求)通知、TCP堆栈内存压力检查、及swappiness检查;这些先进检查常被用于对全球的最繁忙系统进行检查。 我们会为您提供更多重要服务,如更新的SSH命令跟踪工具,并向您简介2013年新增服务/检测。

服务器配置文件版本控制系统– 我们在此投入了大量的研发精力,将把所有的配置类文件及其他类型的文件存放在分布式版本控制系统的服务器上。现今,全球还没有任何一个系统能够控制服务器 上的所有类型的文件。首先,该系统可以对全部/差异性文件进行合理的版本控制,其次,还允许对版本及服务器历史进行控制, 最后, 采用自动文件检查以发现破损文件。 此举大有裨益,此外,我们可能以开源的方式释放该工具组件。

备份跟踪系统 –该系统可跟踪全球所有客户系统的备份、报表及状态信息。我们还对Bacula托管服务器及基于脚本的系统进行集中管理,这正如采用了S3 及本地备份的客户,可以使用邮件进行状态通知,但是使用其它的系统进行检查。该系统可对所有系统的备份情况进行完整的状态及历史跟踪检查。 并且该系统最终是客户可见的,且可自动发出邮件提醒。

备份质量检测系统 – 现今备份工作已经做得非常好,但也有时候,你急想备份,可是却做不到。新系统将自动检测备份质量,检验备份状况,确保其处于最佳状态,同时还可进行周期性 数据库恢复及对损坏的表格进行检查。由于文件大小、位置及客户所使用的系统类型不同,所有备份工作不但很繁琐而且可能带来一系列问题。但是,有了这一系 统,我们便极大地提高了自信,能够为客户更好地备份。

5xx日志检测系统 – 该系统利用日志扫描器扫描HTTP日志以检测5xx 错误,此类错误通常表明PHP系统有重大问题,要么是过载,要么是FPM问题。我们一直不断地针对此类PHP系统问题,发出提示信息,这样该系统可定期扫 描并发出提示。第二个阶段是,这个系统将进行实时扫描,理想的状况是,会在几秒钟内提醒HTTP错误。 可对检测范围加以扩展,以便发现Java及其它以日志扫描为基础的系统的异常状况。

分布式服务器状态监控系统 – 该系统部署于我们的全新的分布式网络监控系统上,将更敏感、更准确地报告分布式服务器的状态,因此,可对系统问题或系统崩溃作出更快的反应。该工作分两步 实行,首先,在当前的架构上展开工作,将来将部署至更快更实时的入栈系统上,以便在1分钟内检测出、或调查出系统中断原因,或加快对系统中断的检查。

本地实时监控工具 – 我们已经使用了如Atop这些工具,从本地服务器采集数据,以帮助解决系统崩溃及其它系统怪病, 但是,该工具不但速度慢而且不够成熟,无法解决系统怪病。为弥补此缺陷,我们正开发一款特殊的实时监控工具,可以快速获取关键运营数据,以备将来故障排除 或程序调试使用。希望该监控工具可以对接我们的Zabbix系统,以便进行事后图表报告及分析。

本地故障排除工具 – 这是对本地实时监控的扩展,这些工具将展示复杂系统故障排除的实时状态,如Apache或FPM过载,数据库诊断及许多其它问题。在开发/运用该工具的第 二个阶段,我们将利用此工具进行系统级别的故障排除,如负载均衡、高速缓存、网络服务器、应用程序服务器及数据库级别的问题。这些工具将帮助我们发现并解 决复杂的高性能系统中存在的问题。

服务器历史状况显示工具 – 这是一款新型的工程类工具,只要服务器存在问题,它便能够综合显示服务器历史状况。由于该工具集成至监控工具及服务器管理工具,所以,它能能够显示服务器 的整个历史状况,包括构建、设计、ticket、提示、备份、故障、文件、命令及文档类变更。这极大地帮助了现场工程师,使其可以快速了解受影响系统的所 有及最近变更状况。

配置管理数据库 – 该项目仍在进行中,采取分步部署的方式,其最终目的在于将服务器及子系统的所有配置部署至一个全球数据库中,以便各系统共享。该项目有许多新特点,特点之一就是,在各互联的系统中,进行配置变更检测。

MySQL 5.5 – 我们现在采用的MySQL 5.1版本,是经过检测的可靠版本,但是,随着2013年的到来,我们将采用知名的、成熟的MySQL 5.5 作为我们的生产标准。我们将把最佳的配置、监控及调试程序方面的经验更新至该版本,以便更好地支持新客户、大客户。

MySQL Percona – 正如你可能知道的那样,Percona是世界上顶尖的MySQL 咨询公司,同时也是最好的MySQL书籍High-Performance MySQL的作者。该公司发布其自有的MySQL版本,综合了他人及自己在该领域补丁程序的最佳实践经验。他们重点关注稳定性及运行状况,以及监控、故障排除及调试改进等,这极大地帮助了我们及我们的客户。

CentOS 6 – 既然RedHat/CentOS 6 已经很普遍、很稳定,我们会将其运用于新系统。新的ISO 图片、自动设置、程序包库以及测试和验证都支持CentOS 6,并且这些就像一个整体在运作。基于RedHat的系统固然很好,但是,若系统规模很大,有多年累积的程序包及软件的话,我们必须做很长时间的准备,才 能够将其用于该系统。

Xzen 4 – 我们将从之前主要采用的稳定的私人云系统Xen 3过度到最新的版本。这不仅会增强软件性能,同时还将更新安装、部署、虚拟机存储管理、网络、监控及管理。此次更新后,将择期扩展云系统,使其可集成主流的Eucalyptus系统。

Percona工具包 – 现今,MySQL工具功能有限,所以我们采用了Percona工具包,该工具包含有很多非要有用的操作工具,可用于监控、故障排除、备份及提高数据库可靠 性。但是首先要有复制工具,以确保主机与副机保持同步,这最终将使我们有信心用副机而不是主机进行备份。这也将有效地增强读系统(用于读操作的系统)的可 靠性,如电子商务。

ITIL 概念及流程 – 我们已经开始采用部分ITIL 流程及术语,如事故与问题的区别。由于全球拥有最佳实践经验的公司越来越以ITIL 理念为中心,而我们一直与这些公司联合协作,所以,我们定将加速前进,更全面地应用ITIL 概念、流程及思维。ITIL是企业比较关注的,它包含了很多先进成熟的概念,这些概念与我们的客户及目标是密切相关的。

Zabbix监控升级 – 我们一直不断地改进Zabbix监控系统,增加新功能、使其更好地发出提示、设置更敏感的触发器、设计新特点,就是希望它能够对我们团队及客户更有益处。 这些改进措施将包含:升级至 Zabbix 2.0 版, 该版本包含很多新的大型系统功能、而且可以提供代理服务、在分布式存储/处理方面也有了改进。

自动设置 – 对在役的服务器自动安装和配置系统进行改进之后,这些工具可更好地将设置流程与总体设计流程及数据进行集成。这包括了更多的服务和子系统,并将使设置服务器在多种平台上,包括阿里云、EC2 等平台上作出更快的反应及进行更准确的事务处理。

分布式命令执行 – 所有大型分布式管理系统所面临的一项主要困难就是如何能够以一种安全的、受控的、受监管的方式执行远程命令。这是一个很重要的问题,尤其是与全球客户处理 事务/问题时,显得更为重要。为此,我们采用多种复杂工具分步解决该问题。第一阶段,改进当前系统以实现简单的远程流程控制,后一阶段,集成最先进系统, 真正地从各个级别实现分布式远程运营及存储配置。