二、APM 实施——将解决方案转变为运行

基线对于任何 APM 实施来说可能是最重要的技术成功因素之一。基线确定了服务的正常运行,为设定警报起点提供了参考,并提供了有价值的趋势和容量规划信息,因为它们是真实的数据。

通 常,APM 解决方案会动态地为一些被观察到的测量指标构建基线;经过数天或数星期,这些基线趋于一个正常的定义。对于其它的测量指标,您很可能想要基于一段时间内的 观察手动设定基线。将这些基线作为参考点,然后您就能够确定性能阈值;当测量违反了特定的行为准则时,警报就会产生。至少在最初的时候,这些阈值很可能以 一个超出基线的比例被设定。例如,当页面性能从基线降低 25% 的时候,就会引发一个警报。这些引发也很可能基于一个模板或一套规则被设定,能够包括更复杂的逻辑;再例如,当磁盘写队列在 60 秒内超出 2 至少 5 次的时候。

重要的、需要考虑的是哪些指标被监测,使用什么阈值;大多数的 APM 工具提供多种多样的测量选项,深入的显示出能够被分散甚至误导的水平值。缺省值或特定平台的模板可能通过 APM 解决方案厂商、软件/硬件厂商、系统集成商或用户社区获得。然而,无论是什么资源,确定这些阈值是否适用于您的特定环境都是非常必要的。尽管这一决定部分 地能够在实施期间作出,但是大多数阈值的改进都是在运行期间实现的。

最后,我们应该关注最终由 EUE 测量驱动的相关性能力。对于有效的相关性来说,最重要的是理解依赖性或交易在系统里经过的路径。它也建议要注意测量时间。当然,不是所有的指标都能够被连 续评估,因此有些是在一段时间内进行取样。这是一种检测普遍性问题的有效方法。然而,间歇的问题本质上可能会是短暂的,以至于它们在取样期间被隐藏起来。 尽管这些通常只会带来更小的业务影响因为它们以更小的频率影响更少的用户),但是它们本质上更难解决。交易“跟随”following)——通常通过 贴标签——可能对特定的环境是合适的,然而,暂时缩短的取样间隔时间为解决间歇问题提供一种更通用的方法。

一个实现强大 APM 配置的明智方法是,在前生产测试实验室实施关键 APM 监测组件,这样您就能够观察到一系列系统负载上的正常行为,这对于设置基线是非常有用的。通常,您将会找到性能的瓶颈。知道哪些测量指标表明了该瓶颈的根 源和它发生的阈值,这是一个理解依赖性并积极配置生产监测阈值的理想办法,而且其带来的影响也很小。


相关内容