Nehalem-EX/至强7500在RAS特性方面能否与RSIC小型机抗衡?

和双路平台不同,多路平台不仅要求更高的性能,也要有更强的稳定性。一直以来,X86服务器在同RISC小型机竞争时,在RAS(Reliability可靠性、Availability 可用性和Serviceability可服务性)方面往往处于下风,这也是一些关键领域的小型机用户迟迟不敢向X86/Linux开放平台迁移的重要原因之一。

Nehalem-EX的出现,将X86系统的RAS特性提高到了一个全新的水平,这些技术多达22条,集中解决三个方面的问题:一是数据保护,可以诊断哪些数据出错,利用CRC、ECC校验来纠正错误,如果不能纠正,可以把这些坏的数据进行隔离,以保证不影响其他数据,避免系统的重启和宕机。二是高可用设计,包括QPI Link之间的互备和热切换,内存和CPU的热切换、故障预警机制等等,以保证系统的高可用。三是降低系统计划内的宕机时间,包括系统分区管理技术、CPU和内存的热添加和热移除等。

这里特别值得一提的就是,Nehalem-EX增加了原来只在安腾处理器上才有的MCA(Machine Check Architecture)机器校验恢复功能。这个功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,这对于虚拟化环境非常重要。在虚拟化环境中,要关机查找和修复故障意味着必须迁移所有的虚拟机,如采用机器检查恢复功能,这个故障可以隔离,不必迁移所有的虚拟机。目前,包括微软Windows Server、Redhat、SuseLinux以及VMware都已经支持这一功能。

可以说,Nehalem-EX已经拥有X86系统里最高级别的RAS特性,而且与小型机相比,差距也已经不大。但需要注意的是,这些RAS特性的最终实现需要系统厂商和软件厂商的支持。目前,在操作系统和虚拟化方面,Novell、Redhat、微软和VMware都已经做好准备,为至强7500中的高级RAS特性提供支持,以保证可以将这些功能提供给上层的应用软件使用。另一方面,虽然至强7500提供了20多个RAS功能,但并不是所有服务器厂商都需要或者有能力去实现这些功能,比如硬件分区、CPU热添加/热删除、内存板的热添加/热移除,不同厂商会有各自的考虑。这些都需要用户在方案选型时加以考虑。


相关内容

    暂无相关文章