zabbix 4.0上使用ipmi的方式监控IBM X3650 M3服务器,zabbixipmi


客户有几台老式的IBM X3650 M3服务器,采购日期是2009年。现在这几台服务器拼拼凑凑拿来做存储服务器,安装开源的存储软件freesnas和nexenta,作为虚拟化的共享存储。最近存储老是故障,莫名死机,原因未知,所以我想着采用zabbix上的IPMI方式监控硬件状态。

IPMI是计算机系统的远程“关闭”或“带外”管理的标准接口。它可以独立于操作系统直接从所谓的“带外”管理卡监视硬件状态。华为的服务器叫做BMC接口,IBM的服务器叫做IMM(Integrated Managemnet Mouule)

一、配置IMM

主机后面有一个专用的管理端口,即IMM端口,可以通过网页,SSH进行登陆

image.png

IMM管理端口默认IP :192.168.70.125

用户名:USERID

密码:PASSW0RD

注意密码中的“0”是数字0

IMM地址需要更改,才能对接到ZABBIX上监控

在开机自检过程中根据提示按F1进入UEFI设置

image.png

在UEFI中进入System Setting->Integrated Management Module->Network configuration。

在输入需要修改的IP地址后,选择Save Network Settings

image.png

按照提示,修改IP地址

image.png

在IE中输入IP地址即可访问IMM管理界面

image.png

进入之后,如下图所示:

image.png

可以看到,这台服务器因为年代久远,没有质保,很多指标信息都无法显示了

IMM主要功能如下:

System status

查看服务器的健康状况,包括温度、电压和风扇状态等。

Virtual Light Path

查看服务器光通路诊断板上是否有告警。

Event Log

可以查看服务器的日志信息,可以用Save Log as Text File另存日志信息为文本文件。

Vital Product Data

查看服务器的型号序列号及各种微码版本。

Power/Restart

通过IMM控制开关服务器,包括定时开关机功能

Remote Control

远程控制服务器终端,需要添加IBM Virtual Media Key选件来实现此功能,大部分机型标配没有此选件。

PXE Network Boot

设置服务器的PXE启动。

Firmware Update

刷新服务器的UEFI和IMM的微码。

System Settings

设置IMM的时间日期,名字等基本信息。

Login Profiles

为IMM添加除默认之外的其他用户。

Alerts

设置snmp告警等信息。

Serial Port

设置串口信息

Port assignments

定义IMM所使用的端口。

Network Interfaces

设置IMM的网络地址

Network Protocols

配置SNMP,DNS等网络协议

Security

配置SSL、SSH等安全协议

Configuration File

备份和恢复IMM的配置文件

Restore Default Settings

将IMM恢复默认设置

Restrat IMM

重启IMM

Log off

退出登录

*****因为缺乏售后维护,无法上传更新固件,更新本版,同时SNMP功能也无法使用******

二、ZABBIX配置

关于ZABBIX上的IPMI详细配置,参考手册:https://www.zabbix.com/documentation/4.0/zh/manual/config/items/itemtypes/ipmi

在完成ZABBIX4.0配置后,需要修改zabbix-server.conf配置文件,配置IPMI轮询,同时配置日志级别来判定是否能够获取ipmi传感器

vim/etc/zabbix/zabbix_server.conf
#StartIPMIPollers=0

取消注释,并设置poller计数为3,如下:

StartIPMIPollers=3

同时启用DebugLevel=4(63行)

image.png

完成配置文件修改后,保存退出,重启zabbix-server服务

安装IPMItool

IPMItool是linux下监控和采集IPMI的软件包,在ZABBIX上安装可以采集和验证IPMI服务器的传感器信息

关于IPMItool使用方法请自行查阅

yum-yinstallOpenIPMIOpenIPMI-develipmitoolfreeipmi

登陆zabbix服务器,通过ipmitool远程访问服务器传感器列表

ipmitool-Ilanplus-H192.168.1.23-UUSERID-PPASSW0RD-Lusersensorlist

获取的信息如下:

image.png

最左边的是传感器ID,右边都是获取的值,可以看到很多都获取不到 这垃圾服务器=。=

查询具体传感器值

ipmitool-Ilanplus-H192.168.1.23-UUSERID-PPASSW0RD-Lusersensorget"AvgPower"

image.png

三、监控配置

zabbix4.0上有IPMI模板,Template Server Intel SR1630 IPMI,可以自动获取。但是我这台IBM服务器IMM的很多传感器都采集不到,不能依靠模板

配置主机

image.png

这里IMPI接口端口为623,但是IMM中没有定义,注意,不要修改

配置模板,选择ZABBIX4.0自带的模板

image.png

配置IPMI

image.png

配置上IMM的用户密码,其他保持默认

过段时间后,ZABBIX能够自动发现一些采集器,在日志中会有显示

grep'Addedsensor'/var/log/zabbix/zabbix_server.log

image.png

我们同时查看主机,显示IPMI指示已经亮起

image.png

但是,因为服务器渣,模板的很多监控项因为没有传感器所以不能正常工作,无法使用的

SNMP更用不了(IMM问题)

image.png

所以我们需要自定义监控项,获取IMM可以采集到的传感器

四、自定义监控

首先我们要确认IMM上有哪些传感器,能够得到哪些指标,这样我们才能在ZABBIX上配置监控项

image.png

就这点东西,多了没有 垃圾服务器=。=

还可以看看阈值,可以参照这个来配置触发器

image.png

在zabbix上确认传感器“Ambient Temp"

image.png

可以用,然后我们在配置监控项Ambient Temp

image.png

注意

1、类型选择IPMI客户端

2、键值一定是以ipmi_开头,空格的地方使用_,如Ambient Temp,改为impi_Ambient_Temp

3、传感器一定是能查询到

4、信息类型改为浮点数,对于有小数的

5、单位按照合适进行编写

6、更新间隔推荐大于30S

对于监控项,点击下部的”CHECK NOW“,然后在最新数据中查看是否获取数值

image.png

可以看到,监控项运作正常

编辑触发器

按照以下填写

image.png

采取”Ambient Temp"监控项,平均5分钟内的值大于等45即开始告警,告警级别为一般严重,就是说温度超过45度告警

然后编辑恢复表达式

image.png

平均5m小于45度则恢复

编辑图形

选择正确的监控项即可编辑图形

image.png

进行图形预览

image.png

四、思考

1、配置IMM监控模板,方便大批量监控

2、IMM上有日志告警功能,可以考虑使用zabbix收集日志

相关内容