关注IT管理第一步——数据监测和警报


51CTO.com 综合报道】有了完善的测量数据,才能把IT管理做到最好。游龙科技苦练内功,并不急于尝试覆盖性功能,首先脚踏实地帮助客户解决IT管理的第一步——数据监测和警报,所有监测值采集和警报管理可以做到业内最精准。

采集监测数据方面,游龙科技使用了外围的模拟用户操作方式。比如,模拟网站登陆者登陆网站,从网站提取性能数据,进行比对和校验。从工作方式来讲,SiteView ECC不会对客户服务器造成压力,它从客户用途的角度,来体验它的业务系统是否够快。比如刚才提到的网站性能监测,大概用几秒钟,就会把数据加载下来。若某网站从去年8月到今年6月,平均一个页面的打开速度是1.2秒,那么SiteView ECC会把1.2秒作为报警的基线。超过1.2秒的延迟就会进行告警提示。

对于用户来讲,需要监测什么,监测多少性能指标,完全根据客户要求。游龙科技每遇到一个客户,都从客户实际需要出发推荐解决方案。一般中小型企业,或者中型企业,它的服务器不会很多,监测指标并不需要太多,毕竟像移动梦网那样的全国型项目并不多。

基于监测,游龙科技还在不断提高报警的准确度。它非常重要,漏报误报是客户无法忍受的。曾经有一位SiteView ECC的银行用户,三点夜里收到连续三条短信报警。拿起手机一看短信,就冲出门外,因为核心网断了。这很不可思议,银行系统一般都会做容灾备份,做很多预备工作,有双机热备等等。但是千分之一机率的故障,还是出现了。一旦出现这种情况,报警能够解决很大的问题。用户半夜到机房查看,果真是核心网中断,及时补救后并未造成什么损失和影响。

解决误报问题。游龙科技在警报误报上做了很多改进。比如,一个网络系统,从监测机主机到被监测主机之间,会经由很多路由器、交换机。一个网络设备的故障,会造成一片网络主机的中断,会导致很多业务系统的中断。这个时候是报警网络设备故障,还是报警服务器系统崩溃?SiteView ECC会追根溯源,自动、智能进行准确报警,快速定位故障根源,节省故障排查时间。

从管理角色来讲,SiteView ECC把故障分为两种:一种故障报给系统操作人员,一种故障报给领导和管理人员。从系统用途来讲,系统故障会直接报给相关的负责人,实现报警信息的准确传达。 

SiteView ECC也很注意一些报警的细节处理。比如,网络出现短暂的异常,瞬间异常被抓取到。这时候警告还未确定,监测器会立刻加大监测力度,在下一次数据采集中重点进行监测,以便确定是否告警。因为在这种快速监测情况下,难免会出现抖动状态。IT运维厂商必须解决各种漏报误报问题,不然就会演变为IT版“狼来了”的故事。用户会逐渐放松警惕,一旦真有问题发生,不能得到及时关注和处理,就为时已晚。

另外,为了提高数据的价值,游龙也在不断改进、不断提高报表的功能。IT管理,其本质在于管理学,而管理学首要要义是:无法管理不能监测的数据。因此,首先,要采集数据;其次进行数据挖掘和展现。不同的客户有不同的需求,为此游龙提供给用户自定义报表功能,从管理者角度、一线运维人员角度等不同角度,来覆盖客户所有需求。同时,用户可以根据自身需求进行报表个性化定制,用户也可以通过EXCEL的公式进行报表直接调用。其中,有一些公式是SiteView ECC自有的公式,输入公式即可直接调用、展现。

相关内容