我们帮助客户运维着大型的互联网系统。所有的大型互联网系统有存在问题,所以任何一个大型的互联网公司都拥有一个团队, 专门处理他们的系统问题。许多问题都是普遍的,但是这些问题中的大部分对于不同公司、不同技术和不同行业而言,却是不尽相同的。例如,视频公司的系统就跟 手机游戏的系统完全不一样。

而我们所做的,是为每一个互联网行业提供服务,这就是说,我们知道各个行业的问题。 从各种角度而言,这都是非常好的。因为许多问题都是类似的,像硬件、数据中心、Linux、MySQL、PHP、Apache、高可用性、安全和性能等。 所以,我们可以跟您分享我们从不同客户那里学到的知识和经验。在这些领域,我们拥有世界级的最佳实践。

即便如此,同样仍存在着困难。因为 有些客户的问题并非如此常见,我们需要应对每种系统上发生的每种问题,包括不常用的脚本语言(Python, Ruby, Perl),搜索引擎(Solr, Sphinx),缓存/队列 (Redis, MQ), NoSQL (MongoDB和其他NoSQL类型的数据库),视频编码,分片,硬件,防火墙,主从复制,批处理系统,持续集合和自动化控制(Hudson, Puppet),很多特定问题比如像多人在线游戏引擎等更多。

对于这些问题,我们必须学习各种系统知识、解决方法,学习如何监控、管理、故障排除等协调这些事情。这使得我们在互联网领域成为了世界级的专家,当然在这过程中凌晨三点出现问题时也让我们的生活变得非常有趣。最后,我们就必须知道所有事情。