官方机啥样?看英特尔Nehalem-EX样机超详评测(1)(9)
在前面,笔者分析了Nehalem-EX处理器内部架构相对于通常的Nehalem处理器的不同,此外,Nehalem-EX和通常的x86处理器很不同的一个地方是,它面向Mission Critical关键任务)市场,相对于性能,这些市场上更加重要的是平台的可靠性。Nehalem-EX增加了相当多的RASReliability, Availability, Serviceability:可靠性、可用性、稳定性)特性来满足关键任务计算的需求:
简单来说,RAS大约体现了系统的健壮性;Intel的安腾平台就带有很多RAS特性
传统的x86处理器难以进入关键领域的原因,就在于其RAS特性不足,可靠性不够,用户不敢在上面跑相关应用。Nehalem-EX的出现,将x86系统的可靠性带到了一个全新的水平,如图上所示,这些RAS特性非常多,大致总结如下:
Nehalem-EX RAS Features | ||||||
类别 | 功能 | 特性 | 说明 | |||
数据保护 | 降低关键级别错误 全系统数据错误检测 限制错误所致影响 |
Parity checking and ECC 奇偶校验与ECC |
||||
Memory Themal Throttling 内存热量监控 |
防止内存过热 | |||||
Memory demand & patrol scrubbing 内存按需/轮询检查 |
提高全系统数据可靠性 | |||||
Corrupt data containment 污染数据隔离 |
限制错误数据造成的影响 | |||||
QPI viral mode QPI病毒模式 |
标记为Viral的数据包将被限制在QPI总线内而不会发送到设备上 | |||||
QPI rolling CRC QPI持续CRC校验 |
QPI CRC校验扩展到两个连续的包 | |||||
高可用性 | 恢复失效数据链接 从失效部件迁移 从不可修正错误中恢复 故障预测 |
Intel SMI Lane Failover SMI内存接口信道容错 |
||||
Intel SMI Clock Failover SMI内存接口时钟容错 |
||||||
Intel SMI & QPI Packet Retry SMI & QPI包重发 |
||||||
QPI Clock Failover QPI时钟容错 |
||||||
QPI Self-Healing QPI自愈 |
||||||
SDDC plus random bit error recovery 内存SDDC纠错与任意位错误恢复 |
||||||
Memory Mirroring 内存镜像 |
||||||
Memory DIMM and Rank Sparing 内存DIMM和Rank热备 |
||||||
Dynamic CPU and memory migration CPU/内存动态迁移 |
需要操作系统支持 | |||||
MCA-recovery with OS support MCA恢复 |
需要操作系统支持 | |||||
计划宕机时间最小化 | 分区模块化 替换失效组件 |
Static System partitioning 静态系统分区 |
需要操作系统支持 | |||
MCA error logging (CMCI) with OS predictive failure analysis 用于操作系统失效分析预测的MCA错误记录 |
||||||
Physical Memory Board Hot Add/remove 物理内存卡热添加/热移除 |
||||||
Dynamic/OS Memory On-lining(capacity change) 动态内存在线容量变更) |
需要操作系统支持 | |||||
Physical CPU Board Hot Add/remove 物理CPU卡热添加/热移除 |
需要操作系统支持 | |||||
OS CPU on-lining(capacity change) 动态CPU在线容量变更) |
需要操作系统支持 |
在Intel正式宣传的文档中,提到的RAS特性就是上面22条,集中解决三个方面的问题:一是数据保护,利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。二是高可用性,包括各种主要部件的备、镜像和热切换等,以保证系统的高可用性。三是计划宕机时间最小化,包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。
评论暂时关闭