Linux有着非常先进、强大的内存管理机制,其中包括了成熟的NUMA内存跟踪、管理和优化技术。NUMA(Non-Uniform Memory Access,非一致内存访问)在现代服务器中通常意味着每个CPU都有直接与它相联系的内存。一个系统可能有32GB内存,但每个CPU能够直接访问的 仅有16GB,如果要访问另外的16GB,则必须通过其他的CPU,相对速度较慢。这在PC服务器中比较少见,但新的Intel Nahalem芯片(ELX-5xxx)只支持这种方式,每个CPU有着三个内存通道。

Linux可以跟踪CPU和应用程序的内存使用,并会尝试安排进程在拥有比其所需内存更大的CPU上运行,以提高性能。所有这一切对用户和系统管理员都是不可见的,事实上,大多数工程师甚至从来没有听说过这种技术,即使所有新服务器无时无刻不在使用。

那 么,问题是什么呢?交换。多年来,不少系统管理员都曾提交过关于交换的问题报告,尤其是在运行着消耗大量内存程序的服务器上(例如数据库和Java)。最 近的讨论和工具表明,NUMA是导致问题的主要原因。为什么呢?因为新创建的进程默认将分配单个CPU上的所有或绝大部分内存,然后使用其它CPU的部分 内存。在一台16G、每个CPU分配8GB的服务器上运行一个需要12GB内存的MySQL进程,我们会发现MySQL使用了第一个CPU所有的8GB内 存以及另外一个CPU上的4GB内存。

为什么这会成为一个问题呢?因为内核也需要内存,而NUMA系统的内存分 配并不均衡,尤其是当一个CPU的内存被完全占用的时候。这种情况之下,它会交换出第一个CPU上的部分内存,即便另外的CPU可能仍然有很多内存空闲。 很明显,交换是我们应当竭力避免的,这可能导致交换期间整个数据库的操作被阻塞,进而影响整个网站。

如何解决这 个问题呢?现在而言,唯一的办法就是通过“numactl”命令以interleaved模式来启动占用大内存的进程。这将使得CPU间的内存得以平均分 配,从而避免问题的发生,尽管由于在不同CPU间进行内存访问,在理论上系统可能会变慢一些,但这仍不失为一个好方法。当然这也有些恼人,因为你每次启动 进程的时候都必须使用numactl命令,意味着可能需要修改init脚本或相应的启动命令(确保软件包numactl已安装)

Linux 真正需要是一个默认的NUMA策略。当前已经存在成熟的内存策略,用于控制内存的使用、绑定等等,但这些策略在进程之间是彼此孤立的,我们没有办法设置一 个默认值。内核应当有一个对应的sysctl选项,来允许系统管理员为一些应用(占用大量内存的)设置默认的内存策略。不过要彻底避免不必要的交换及相关 问题,则仍有很长的一段路要走,目前我们仍需要通过numactl命令来以interleaved模式运行相关程序。