媲美RISC的RAS特性

RAS特性Reliability, Availability and Serviceability,可靠性、可用性与可维护性)具体来说,可靠性要求计算机能够持续运转,从来不停机。可用性要求重要资源都有备份,能够检测到潜在要发生的问题,并且能够转移其上正在运行的任务到其它资源,以减少停机时间,保持生产的持续运转,并具有实时在线维护和延迟性维护功能。服务性要求能够实时在线诊断,精确定位出根本问题所在,做到准确无误的快速修复。

至强7500的横空出世让x86服务器在关键任务领域的境况大为改观。英特尔为至强7500引入了移植自安腾处理器的RAS特性。据英特尔介绍,至强7500拥有x86系统里最高级别的RAS,和RISC小型机相比,在RAS方面已经差距不大。其中最为重要的就是自动检验架构MCA,Machine Check Architecture)恢复功能。

MCA恢复功能是安腾平台上的特性,功能是在不需要系统停机的情况下监测和纠正CPU内存和互联架构中的错误。这对虚拟化环境而言非常重要,使得一台运行多个虚拟机的物理服务器不需要关机来查找错误,而只需要关闭或迁移其中部分虚拟机,保证整个系统的正常运行。MCA恢复是一个系统级别的RAS特性,不仅包括CPU、内存和I/O,还需要操作系统的支持,目前VMware ESX和Windows Server 2008 R2、Novell SUSE Linux和Red Hat Enterprise Linux等系统都已经可以支持这一特性。

当然,至强7500所具备的RAS特性并不仅仅是MCA恢复,而是包含三大部分:数据保护、增加可用性、最小化宕机时间,总共具备22条,下面来具体看一下:


至强7500 RAS特性 类别 目标 特性
保护数据 降低关键级别的错误;通过系统检测数据错误;限制错误产生的影响; Parity checking and ECC
Memory Themal Throttling
Memory demand & patrol scrubbing
Corrupt data containment
QPI viral mode
QPI rolling CRC
增加可用性 恢复失效的数据链接;从失效的CPU&内存中迁移负载;从无法修正的数据错误中恢复;预测失效发生; Intel SMI Lane Failover
Intel SMI Clock Failover
Intel SMI & QPI Packet Retry
QPI Clock Failover
QPI Self-Healing
SDDC plus random bit error recovery
Memory Mirroring
Memory DIMM and Rank Sparing
Dynamic CPU and memory migration
MCA-recovery with OS support
最小化宕机时间 分区模块化;替换失效组件 Static System partitioning
MCA error logging (CMCI) with OS predictive failure analysis
Physical Memory Board Hot Add/remove
Dynamic/OS Memory On-lining(capacity change)
Physical CPU Board Hot Add/remove
OS CPU on-lining(capacity change)

由此可见,具有弹性的高可扩展性、结合丰富的RAS特性,让至强7500在关键任务中具备了媲美RISC小型机的能力。再加上更具竞争力的价格,至强7500平台无疑可以成为吸引RISC用户进行迁移的一大利器。如今,至强7500服务器产品已经非常丰富,包括IBM、HP、DELL、富士通、浪潮等国际国内服务器厂商已经纷纷加入至强7500阵营,如IBM X5架构的四路系统System X3850、浪潮八路天梭TS850等,均将目光投入了以往x86所难以企及的关键任务领域。


相关内容