服务器稳定性比拼 软件硬件一起来


服务器制造商都在极力宣扬他们的系统有多么可靠,但是如何衡量他们系统的可靠性?这就很难说了。要取得这些厂商的定性信息并非难事,这些数据看起来都在说明他们的系统是最可靠的--但是证明他们的系统经得起测试考验的目标型量化指标是什么呢?这种数据很难获得,但是它确实存在。

Laura DiDio在创办自己的信息技术智能咨询公司以前,曾经在Yankee Group担任服务器分析师,她经常会对全球服务器厂商的首席信息官进行调研,了解他们的各种服务器平台在一年时间内宕机的次数。DiDio目前仍然在继续这项调研工作,她向笔者提供了信息技术智能咨询公司服务器硬件和操作系统可靠性调研的用户数据和一些自己的看法。

信息技术智能咨询公司所做的调研是建立对400多位企业C级别高管的调研基础之上的,这些高管都来自全球20个国家的代表性行业和平台制造商。这项调研看起来不仅反映出在这些地区运行的平台有多少种不同情况的断电和宕机,而且还总结了这些断电和宕机发生的时间长短和这些地区系统管理员的经验水平。意料之中的是,使用最经得起市场考验的系统,最富经验的系统管理员和最成熟的平台的企业宕机时间也是最少的。

信息技术智能咨询公司服务器可靠性调研将由硬件或者软件故障导致的服务器断电计算在内。DiDio表示,位于第一级别的断电宕机来自于"愚蠢的员工",比如说某人意外关闭服务器,然后又快速的加以纠正。位于第二级别的断电宕机是导致系统30分钟到4小时之间的宕机。出现混乱的应用软件或者某些补丁出错都是导致第二级别断电损耗的原因。这些通常都需要1个以上的系统管理员来找到问题症结所在,通常也至少需要1个以上的管理员到现场来解决系统的物理故障。位于第三级别的断电宕机是最糟糕的一种,也是企业级服务器中最少见的一种,他们通常需要4小时以上的时间才能解决。这些故障会导致数据丢失,也经常会引发无法使用应用软件的最终用户的愤怒。

在这些接受信息技术智能咨询公司服务器可靠性调研的用户中,IBM公司运行AIX系统的Power Systems包括上一代的System p和pSeries机型)在所有使用这些平台的用户中,每年的平均宕机时间是最少的。AIX系统的用户报告称每年第一级别的事故平均发生率为0.42,第二级别的事故发生率为0.34,第三级别宕机的事故发生率为0.12。因此至少在2009年,i平台比起在Power系统上运行的AIX平台要略逊一筹。

I平台的数据与信息技术智能咨询公司服务器可靠性调研中在PA-RISC或安腾系统上运行的HP-UX平台或者在Sparc服务器上运行的Solaris平台的数据非常接近。在上一代的PA-RISC系统上运行HP-UX 11i v3平台每年的第一级别事故发生率为0.60,第二级别的事故发生率为0.43,第三级别宕机的事故发生率为0.10;在安腾服务器上运行的HP-UX平台数据要略高一些,每年的第一级别事故发生率为0.65,第二级别的事故发生率为0.48,第三级别宕机的事故发生率为0.14。在Sparc服务器上运行的Solaris操作系统,据用户反馈每年的第一级别事故发生率为0.59,第二级别的事故发生率为0.49,第三级别宕机的事故发生率为01.10。

当你对信息技术智能咨询公司追踪的断电宕机情况进行计算,你会发现运行AIX系统的Power Systems每年的平均意外宕机时间不到15分钟,是去年报告数据的一半。在PA-RISC和安腾服务器上运行的HP-UX操作系统在PA-RISC服务器上的平均意外宕机时间为36分钟,在安腾服务器上的平均意外宕机时间为39分钟。Solaris系统也在这个范围之内,每年平均意外宕机时间为35.4分钟,但是根据信息技术智能咨询公司的调研结果显示,上一代的Sparc机型在2009年的宕机数据有些偏高。

有趣的是据信息技术智能咨询公司统计数据显示,运行Mac OS操作系统的服务器每年的平均宕机时间为37.4分钟。

微软公司的Windows Server 2003和Windows Server 2008操作系统平台则得分不佳,不过这些系统正在不断改进。2008年信息技术智能咨询公司的调研显示,受访者反馈他们的Windows系统每年的平均意外宕机时间为3.77小时,但是2009年这个时间降低了35%,缩短为2.42小时。尽管Windows服务器的宕机时间较长,但是第二级别或者第三级别的服务器事故平均发生率却并不高,今年由这些高级别断电宕机导致的总体断电比例仅为29%。那些使用IBM Power-AIX服务器的用户反馈他们的事故中有19%来自第二级别或第三级别,Power-i的用户反馈来自第二级别或第三级别的事故发生率也接近21%。Solaris的用户反馈说他们的断电故障中有25%是第二级别或第三级别。

DiDio在服务器可靠性调研中了解到的其他有趣现象是系统管理员的经验水平和他们为服务器打补丁所花费的时间也起到很大作用。在UNIX用户中系统管理员的平均工作经验为12.7年AS.400-i用户的平均工作经验为11年),在所用系统用户的工作经验方面是最丰富的,Windows系统管理员的平均工作经验为7年,Linux系统管理员的平均工作经验为为四年,Mac OS服务器管理员的平均工作经验为三年。

DiDio说"UNIX和AS/400管理员的经验水平相当于主任技师或者修理汽车的A级机械师的级别"。

DiDio还补充说商用Linux系统在文件方面得到了大幅改进,这在系统管理员为服务器打补丁所花费的平均时间上有所反馈。Linux用户反映说他们为服务器打补丁花费的平均时间,根据Liunx系统版本的不同大概为15到19分钟。Ubuntu今年在所有Linux系统中的改进是最大的。Power服务器打补丁的平均时间大概为11分钟,不管他们运行的是AIX系统还是i系统,运行Solaris系统的服务器打补丁时间大概为31分钟,而HP-UX服务器打补丁时间为33分钟。根据被调研用户打补丁的平均时间来看,运行Windows Server 2003操作系统的服务器平均打补丁时间为32分钟,Windows Server 2008系统打补丁的时间平均为38分钟。

DiDio表示"我们从中得出的经验教训是公司不应该忽视培训和认证的重要性。否则就是耍小聪明,犯大糊涂"。

  1. 服务器稳定性测试方法汇总
  2. 增加服务器稳定性的12种技术
  3. 稳定性是首要指标 1U X86服务器采购细节谈

相关内容