让工具发布警示

Beddoe使用了Uptime软件公司的正常运行时间软件,他认为这种工具很重要,因为它们可以在服务器的状况超出某个阀值时,例如内存超载或者CPU的使用率过高时可以发出警示。

虽然大多数工具都内置了警示功能,但Beddoe强调说,还是应该寻找一种可配置警示触发条件的产品,例如一旦超过预设的阀值便可发送电子邮件或手机短信的产品。“你需要有意义的警示信息,以便可以采取必要的措施纠正这种情况。”

Walter Beddoe,Six Telekurs负责IT和后勤的副总裁,他说,“17年来,我们从未出现过影响到客户利益的重大宕机事件。”

汽车服务公司Carfax的运营经理Jerry Gregg说,重要的是要了解,不少性能测量工具计算出的正常运行时间只是一个近似值。“这样的数值,充其量只能用来参考。”

Gregg观察到,一些初步的正常运行时间测量工具得出的数值实际上可能引起误解,因为这些工具不能正确地区分如下两种情况:周日清晨睡眠时间发生的一小时长的服务器宕机和周四下午正运行关键业务进程时的10分钟的系统失灵。这也是为什么应该购买那些可提供全时、基于事件分析能力的测量工具的原因。

为了让正常运行时间分析更有意义,Gregg决定选用可以显示服务器崩溃对关键业务服务产生何种影响的测量工具。Gregg采用了BMC的ProactiveNet性能管理软件,该软件可直接将服务器宕机时间与销售交易和其他类型的面向业务数据进行关联。“可以让我们用美元而不只是用时间来量化服务器的宕机事件。”

该软件所生成的信息可帮助他确定宕机事件是否会威胁到企业的盈亏底线,为购买新服务器、更好的网络设备或其他可靠性增强技术及服务的预算做辩护。“如果没有这样的信息,你就只能在无法真正了解运营成本的情况下进行成本效益决策,”Gregg说。


相关内容