AIX环境下 如何在服务器在线模式诊断硬件故障


服务器技术已经发展几十年,但随着互联网信息技术的发展。云技术和移动平台成为新的技术标准。为了使终端更便捷,客户端会采用手持式移动设备和浏览器,并要求相关的数据和程序须保留在“云”端。随着云技术和移动平台的发展,服务器的数量和规模必将成几何级数的增长。故障和问题也会成倍增长。但和在个人使用的情况不同,网络化的服务器由于同时支持众多的操作者。运行不同的网络应用程序。管理众多的本地和远程设备。其设备的故障诊断就相对复杂。

UNIX本身是为复杂网络化环境设计的操作系统,而AIX操作系统是最大的系统集成商IBM开发的第二代UNIX,具有性能完善,使用方便,扩充性强,适合企业关键业务等特点,所以本文实例均在AIX环境下实现。

1、故障概述

服务器的在线模式故障是指服务器发生了一般性错误。这些错误虽然不至于系统崩溃。但影响系统的正常运行,影响数据的健壮性,并有进一步扩大危害的可能。系统的问题和故障应该及早发现。并及时进行处理和解决,避免进一步的危害,引起严重后果。及早的预判。及早的发现。及早的排查是故障诊断的关键。

2、系统故障分析和判断

系统硬件故障分析可以使用diag命令进行分析和判断。

在系统管理员状态下运行命令#diag进行硬件诊断程序。检测主机内硬件存在的问题。

1)基本系统

2)I/O设备

3)异步设备

4)图形设备

5)SCSI设备

6)存储设备

7)通信设备

8)多媒体设备

#diag —S

在所有资源上运行诊断。

3、查看系统的错误日志

在系统运行时,一些系统错误会记录在errlog中,其中有些错误还会在终端上显示。检查错误日志可用以下命令

4、DUMP

当系统发生软硬件故障导致宕机时,系统将搜集故障发生时系统的内存和处理器状态等信息,产生DUMP文件,并且在液晶屏上显示888开始的代码。记录第二段开始的故障码,并分析DUMP状态码有助于分析故障原因,找到问题所在。

5、日常检查服务器状态的项目及其相关命令

作为辅助。定期运行检查服务器性能的相关工具和命令,有助于掌握服务器状态,预测故障点,相关命令包括:

Iostat

查看系统I/O状态。分析CPU对各端口的服务占比,了解硬盘swap空间和内存的数据比例关系。

Vmstat

查看系统虚拟内存状态信息。

Sar

Sat查看系统活动状态信息。

Topas

Topas可以监控系统内存,CPU,I/O端口,swap空间的情况

no 命令用来修改内核参数。调整系统性能。

Svmon

svm on 命令用来查看系统当前的内存的具体使用。

6、结论

任何完好的系统它都不可能一点错误或故障都没有,网络服务器系统在运行时总是会或多或少的问题出现,虽然AIX系统具有自动诊断错误和故障的能力,但用户熟悉系统,并定期监视诊断系统的运行情况,方可避免不必要故障的发生。本文相关维护方法在IBM P520服务器,AIX 6.1操作系统下实现通过。

相关内容