一次服务器宕机后的日志分析


一次服务器宕机后的日志分析
 
    在这里先吐槽一下,NND写好的报告突然消失了,唉,难道是昨天看片的原因,360什么的果然是不可靠的啊,算了。
    根据/va/log/message分析10月11日之前系统还是能正常提供服务,如果是服务导致的系统宕机则会产生其他日志,10月11日19:44:20系统启动长生日志。初步判断可能是硬件或者系统其他原因。系统重启之后业务还是能够正常运行说明其他的服务或者是配置应该没有出错,查看登陆日志排除入侵和人为的因素导致系统宕机,判断为硬件或者系统其他原因,但是服务器指示灯没有报错,硬盘内存电源主板都是在正常工作说明还得细致分析。
Oct  6 04:03:02 epmttetla syslogd 1.4.1: restart.
Oct 1119:44:20 epmttetla syslogd 1.4.1: restart.
Oct 1119:44:20 epmttetla kernel: klogd 1.4.1, log source = /proc/kmsg started.
Oct 1119:44:20 epmttetla kernel: Linux version 2.6.18-164.el5(mockbuild@x86-003.build.bos.redhat.com)(gcc version 4.1.2 20080704 (Red Hat 4.1.2-46)) #1 SMP Tue Aug 18 15:51:48 EDT2009
Oct 11 19:44:20epmttetla kernel: Command line: ro root=LABEL=/ rhgb quiet
Oct 11 19:44:20epmttetla kernel: BIOS-provided physical RAM map:
   
 
     Oct11 19:44:20 epmttetla kernel: PNP: No PS/2 controller found. Probing portsdirectly。  初步判断是内核对双核支持的不完善,或者是系统内核其他问题,但是对应该不会导致系统宕机,这些报错的地方都不是致命错误,也不是核心自身可以探测到的错误,也就是说核心初始化自己的时候,莫名其妙的就宕了。可能是是硬件的关系,可行的测试方法:     1、把主板的电池哪下来,再按上去,并保证能正常,在看系统启动的情况。2、若1不行,把各个硬件逐个更换,分别看情况。3、若1、2都不行,则需判断其他服务是否出现报错导致服务器宕机。以上都是看网上别人分析,个人觉得系统内核可能是一个出错的原因,查看所有的日志判断该系统上线时间不是很久,权限不够啊,不能拿到更多的东西来分析是否是系统业务导致的服务停止从而导致系统宕机。
 
Oct 11 19:44:20 epmttetlakernel: usbcore: registered new driver hiddev
Oct 11 19:44:20epmttetla kernel: usbcore: registered new driver usbhid
Oct 11 19:44:20epmttetla kernel: drivers/usb/input/hid-core.c: v2.6:USB HID core driver
Oct 1119:44:20 epmttetla kernel: PNP: No PS/2 controller found. Probing portsdirectly.
Oct 11 19:44:20epmttetla kernel: Failed to disable AUX port, but continuing anyway... Is thisa SiS?
Oct 11 19:44:20epmttetla kernel: If AUX port is really absent please use the 'i8042.noaux'option.
Oct 11 19:44:20epmttetla kernel: serio: i8042 KBD port at 0x60,0x64 irq 1
Oct 11 19:44:20epmttetla kernel: mice: PS/2 mouse device common for all mice
Oct 11 19:44:20epmttetla kernel: md: md driver 0.90.3 MAX_MD_DEVS=256, MD_SB_DISKS=27
Oct 11 19:44:20 epmttetlakernel: md: bitmap version 4.39
Oct 11 19:44:20epmttetla kernel: TCP bic registered
 
 
 
 
 
    硬盘smart报错,判断可能是当业务访问量过大时,硬盘读写速度过快,导致系统宕机。而硬盘使用的时间快要超过它自身的生命周期,服务器启动后硬盘指示灯没有报警,但硬盘smart报错不会导致服务器指示灯报警,建议准备备份硬盘,一个一个更换硬盘保证服务的正常提供和防止数据的丢失。其实这也只是可能,服务器只有两块硬盘,估计是做了RAID1,上面跑了个tomcat还有mysql,业务访问量过大的时候会不会出现硬盘假死呢?反正现在服务器是正常运行着,备盘在库房也应该有,祈祷吧,数据别丢失就可以。
Oct 11 19:47:27smartd version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Oct 11 19:47:27epmttetla smartd[6384]: Home page is
http://smartmontools.sourceforge.net/ 
Oct 11 19:47:27epmttetla smartd[6384]: Opened configuration file
/etc/smartd.conf
Oct 11 19:47:27epmttetla smartd[6384]: Configuration file /etc/smartd.conf
was parsed, foundDEVICESCAN, scanning devices
Oct 11 19:47:27epmttetla smartd[6384]: Problem creating device name scan list
Oct 11 19:47:27epmttetla smartd[6384]: Device: /dev/sda, opened
Oct 1119:47:27 epmttetla smartd[6384]: Device: /dev/sda, IE (SMART) not enabled, skipdevice Try 'smartctl -s on /dev/sda' to turn on SMART features
Oct 1119:47:27 epmttetla smartd[6384]: Monitoring 0 ATA and 0 SCSI devices
Oct 1119:47:27 epmttetla smartd[6386]: smartd has fork()ed into background mode. NewPID=6386.
Oct 11 19:47:28epmttetla avahi-daemon[6324]: Server startup complete. Host name isepmttetla.local. Local service cookie is 417669660.
Oct 11 19:47:29epmttetla avahi-daemon[6324]: Service "SFTP File Transfer onepmttetla" (/services/sftp-ssh.service) successfully established.
Oct 11 19:47:30epmttetla kernel: mtrr: type mismatch for f9000000,400000 old: write-back new:write-combining
Oct 11 19:47:30epmttetla kernel: mtrr: type mismatch for f9000000,1000000 old: write-back new:write-combining
Oct 11 19:47:31epmttetla pcscd: winscard.c:304:SCardConnect() Reader E-Gate 0 0 Not Found
Oct 11 19:47:31epmttetla last message repeated 3 times
Oct 12 21:40:01epmttetla auditd[5661]: Audit daemon rotating log files

相关内容

    暂无相关文章