三、APM 运行——持续的服务改进

成 功的运行需要在稳定性和持续的服务改进CSI)之间保持平衡。对许多企业来说,仅仅只有在故障发生并严重威胁到业务的时候,CSI 才会成为一个项目。一旦该问题得到解决,这一概念又会立即被抛到脑后,直到下一个重大故障发生的时候才会被再次记起。一个更周全的 CSI 方法将在事件和问题管理方面带来明显的改善,帮助 IT 机构更好地解决和预防问题的发生。

正如之前提及的,APM 成功的关键——既确保业务一致性,又能解决问题——在于相关性。一个强大的 CSI 流程强调去改进被监测到的并找到更合适的阈值。

考 虑一个 APM 的实施,终端用户体验和基础架构指标要能被监测。当事件发生的时候——无论这个事件是由 EUE 警报引起的,还是因为一个实际的终端用户——IT 人员都要将这一事件和它的根源关联起来。确认并修正敏感性或瓶颈——至少暂时要做到这点。如果瓶颈指标数据没有被监测到,那么,无论如何也要开始对 APM进行明显改进来监测它。如果瓶颈指标数据被监测到了,那也要着手改进去调整警报阈值,因此下一次警报能够在用户抱怨之前就识别到问题。警报可能是被 动的——超过某一阈值的用户正在经历性能问题——也可能是主动的——超出阈值给出了一个尽早的警告:如果用户继续这么做的话,他将会出现性能问题。

最 终,持续的服务改进应该不止是通过改善 APM 解决方案的质量来改进业务服务的水平。它可能意味着,通过拨出额外的资源或者对资源的使用给予优先考虑来控制资源,以致瓶颈将不再发生。分配符合业务策略 的网络质量,增加一个 SAN,或卸载一个专门服务器上的流程,这些都是例子。


相关内容