老旧服务器硬件故障处理几例(1)


硬件故障是指服务器硬件出现异常而导致的各类错误。由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。下面以一台惠普LH6000为例说明。

有一台惠普LH6000,配有256M内存,使用一个PIIIXEON700带2M高速缓存的处理器。开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。这种错误一般是处理器电压调节模块VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的情况也有5%左右。我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。所以在初步判断中,可以排除是CPU板块坏。

这时,取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。

相对处理器坏的情况来说处理器电压模块VRM)出现故障的情况比较大。于是立即在另一台LH6000中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比较明显了。于是立即从另一台LH6000中取下一个CPU安装后,开机正常。

在服务器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断出问题的所在。这样就要求相关人员要有信心及耐心。出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。总之,服务器出错后,必须一步一步解决,没有捷径可言。


相关内容

    暂无相关文章