重庆电信与北塔软件相约2008


51CTO.com 综合报道】2008年的6月2日,星期一,按照惯例负责机房巡检的重庆电信林工程师扫瞄了每一个监控界面,没有发现异常。正准备走出监控室,不经意间看到了北塔运维系统的大屏显示器界面上层次分明的物理拓扑图出现异常情况,一条鲜明的红色耀眼的呈现在其中,原因是有一台接入层交换机设备负载量显示达到70%,很明显,这个数值已经超过预设基准。

林工程师感到很奇怪,之前设过告警,为何没有收短信告警,难道监控系统出问题了?于是,小林查找告警策略,发现告警确实设置过了。而且,设置的轮训间隔是三次,每次间隔一分钟。原来,这个问题刚刚出现,这种负载超标的状态持续次数在三次以内,尚未达到三次,因此没有发出短信告警。

于是,小林在北塔运维系统中打开该设备的真实面板,自动查询每个端口流量,发现有一个物理端口只有入流量,没有出流量。小林脑海里思考着,一般来说,这种情况有两种可能,一是它本身就是一个镜像端口,二是这个端口所连设备有异常网络行为。当然,这种异常网络行为包括病毒,网络攻击等。想到此,小林想再看看这个端口到底是级联口还是直连口,却发现只连接了一个IP。

短短几分钟,小林便根据北塔运维系统反馈情况,确定这是一个典型的终端PC中了病毒,进而对网络设备进行网络攻击的行为,结果导致设备负载瞬间加大,进而出现了以上画面。

小林通过北塔系统直接隔离关闭设备端口)的方法,有效阻止了一次网络攻击导致的设备瘫痪的可能。

确实很幸运,但着实让小林捏了一把汗。要知道,这一台设备瘫痪,意味着多少投诉电话,意味着公司会有多少损失,当然,也意味着这个月奖金会泡汤……

电信需求

细节决定成败向来不是用嘴说出来的,在中国信息化最为发达的电信领域,为每一个单位和个人提供着优质高效的服务,从简单的电话业务,到网络为主的综合服务,服务模式和业务范围都发生了很大的变化,各种应用服务和业务需求的质量需要得到很高的保障,这种保障体现在每一个实实在在的细节,细到每一次对机房的巡检,对每一根网线的查看,但是针对网络规模庞大,各种线路众多,地理跨度极大的电信客户,这种细节往往难以得到有效保障。

类似案例的情况,也许我们可以借助某些小工具把端口流量监控起来,或者通过某些工具把设备cpu监控起来,针对单点性能参数进行监控。但实际情况是,没有什么问题一定是局限在某一领域内发生的,业务故障可能是主机系统间不能正常通讯造成的网络问题)……网络问题可能是设备运行不稳定赞成的设备问题)……设备问题可能是机房环境温度失控引发的……由此可见,任何单独的管理系统都不足以应对这些问题。

所以,全面、综合是当今运维管理的的主要特征,“独立工具联合体”只能提供“一麻袋高见”,无法有效支持管理决策。

因此,要让电信行业的每一个服务细节得到保障,必须借助综合的IT运维管理系统,在保障细节的同时,提高自身工作效率,提高企业的客户满意度。

北塔运维管理

以上是我们在实际案例中帮助客户解决问题的一个小插曲,北塔软件就是借助于这样一个个细节获得了众多客户的认可。

北塔BTNM是一款集网络管理、数据分析和应用服务监控为一体的综合型IT运维管理系统,具备跨地域、跨平台、跨厂商的IT运维管理功能,其产品功能全面、使用方便,提供了强大、稳定易用的IT网络运维管理解决方案。是一款适应于中、高端IT运维管理领域的通用管理软件,能有效的提高企业的网络利用率和运行质量。作为北塔网管产品家族的核心产品之一,BTNM已经广泛的应用在政府、电力、教育、银行、能源、制造等各行各业,以期稳定、易用、全面等优点而广受青睐。

BTNM运维管理系统有以下特点:

跨厂商、跨平台的统一拓扑发现管理

BTNM网络资源管理系统能够采用多种算法、迅速搜索整个网络内的所有节点、自动勾画出整个网络的准确第二层拓朴图——物理拓扑图,包括设备间的冗余连接、备份连接、均衡负载连接,网络用户可以为每条设备间连接加以注释,为每台设备设置中文设备名称,监测网络中每台设备的名称、IP 地址、类型、厂商等,并能够自动辨别线路连接类型。

真实面板图管理

可以在设备图标上通过双击图标直接进入设备面板管理、用户分级管理、端口流量管理;BTNM 提供所有网络设备的真实面板图管理,支持设备堆叠显示。在设备面板图上真实、实时地显示设备各端口连接状态。对于某个具体端口,BTNM提供与该端口连接的主机名称、相对应的IP 地址、MAC 物理地址。对于某个具体端口,BTNM 可以提供端口关断与启用操作。

全面的设备管理

设备管理是网络平台管理的核心。BTNM 支持采用SNMP 管理协议各厂商网络产品,包括无线网络产品、防火墙、安全产品、打印机、主机系统、ups 等,能自动辨识各生产厂商,在拓朴图上显示各设备的CPU / MEM负载状况,设备连续运行时间,通过这些信息,我们可以了解整个网络的业务运行状况,得到改造、改进网络的第一手技术资料。并在网络结构图上加以显示,其设备真实面板图,确切的反映这些设备的真实运行状态。

基于事前管理Before Trouble)的数据综合分析能力

基于事前管理,提供网络健康侦测,自动综合相关历史、实时数据,动态检测网络性能异常,捕捉故障征兆,防患于未然。BTNM 通过主动探测或被动接收网络上的各种故障、告警的时间信息,并识别出其中与网络或系统故障相关的内容,对其中的关键部分保持跟踪,向报警模块报告,根据报警策略驱动不同的报警程序,以各种直观的方式显示,从而使得网络管理人员能够及时、准确地掌握网络运行的故障,以便及时发现和修复网络故障,保障业务系统的有效运行。

支持数据的历史记录与分析

BTNM 提供设备端口流量记录和设备负载记录,通过记录各主要网络“干道”的数据流量包括流入/流出平均速率、流入/流出峰值速率、流入/流出字节数、流入/流出平均带宽利用率和流入/流出峰值带宽利用率),各主要设备的负载状况,我们可以了解整个网络的业务运行状况,得到改造、改进网络的第一手技术资料。

全面实用的服务器应用服务有效管理

BTNM系统可以帮助百联管理和监视服务器各种操作系统的运行状态和性能数据,包括服务器的CPU负载、内存利用率、应用进程、文件系统、文件体积等信息的分析与监视。同时,可以管理和监视服务器上各应用服务的运行状态和性能数据,包括HTTP、FTP、EMAIL、数据库、DNS、DHCP、目录服务以及各中间件等。

面向网络故障的事前管理

网络事前管理作为BTNM产品的核心理念,通过拓朴视图中相应的颜色变化,管理员一目了然的掌控整个网络的实时运行状态。当某项监测参数发生异常时,系统可使用醒目的颜色和直观的状态图标提醒管理人员进行关注,配合系统提供的网络设备性能分析、地址定位等功能来提前进行异常事件诊断,从而达到了防患于未然的目的。实现了网络运维从“事后堵漏式补救”向“事前主动式管理”模式的转变,信息中心的管理压力也得到了有效缓解。

“永远在线”的数据流分析

BTNM 数据流分析功能的设计有别于 Sniffer 等分析工具,无须专业背景,注重 24小时自动进行数据分析,捕捉网络数据异动----病毒扫描、网络攻击。 BTNM支持跨IP 网段分析捕捉各类异常网络数据流,提供 2-7 层的数据分析,一旦捕捉到问题特征,在任何时刻均保留“此刻以前 10 分钟原始数据”以供事后分析,避免了异常事件转瞬即逝的困境,可以进行“数据回放”分析。帮助事后分析问题。

相关内容