带外管理构建应急通道 提高用户满意度


随着电信市场竞争的加剧和人们生活水平的提高,用户对各大电信运营商的服务质量的要求也在不断提升。如何降低网络故障率,提升故障处理水平已成为电信运营商能否赢得客户信任,能否保住市场的关键。伴随着北京移动BOSS三期扩容,不难发现,当城域网网管系统开始渗透到电信运营商业务的方方面面,如果没有一个随时随地解决问题的IT管理作为支撑,则难以把所有问题处理好。特别是电信业务大集中后,处理问题更需要科学化、规范化、自动化、信息化,因此,建立一个轻松、安全、高效的城域网网管体系就显得尤其重要。

电信城域网面临的挑战:如何实现集中式维护?


电信城域网的网管系统主要有故障告警系统和性能采集系统。故障告警系统网管软件、基于网络设备的系统日志、Trap等消息来收集和分析故障信息;同时在故障管理系统中还实现网络拓扑的自动发现,根据系统日志和通过SNMP获取MIB信息来获取网络节点信息,形成网络拓扑图;性能采集系统主要通过SNMP协议的GET消息周期性地采集城域网设备的基本性能参数。


以上海电信为例,目前上海电信7个郊县一共14个机房,所有网络设备都是由城域网网管系统来管理。如果没有应急的带外网管系统,一旦无法TELNET到某台设备,其故障只能由工程师到现场解决。


上海电信城域网现有的网管系统的主要功能是故障管理和性能管理,网管软件是基于标准的SNMP协议对于郊县的设备进行通讯。当郊县的设备故障,网管软件会发出告警信息。因为网络设备无法通过网络访问,该网管系统就失去对于被管理对象的作用。


目前对于郊县网络设备的访问通过TELNET方式进行,一旦设备出现故障无法进行TELNET访问,由现场值班的工程师进入机房通过笔记本直接连接到设备CONSOLE口来解决问题。工程师必须马上到达现场,通过笔记本连接设备console口,这至少需要3分钟,如果郊县的工程师无法解决问题,只能由运维部门派工程师赶到现场来处理问题。


目前上海电信郊县的工程师的技术水平基本上只适合处理一些简单的故障,如果出现复杂的问题,还需依赖运维部门的支持。另外,上海电信郊县的机房距离市区都较远,在夜间交通畅通的时候,也至少需要40分钟才能赶到现场,而在交通高峰期间,至少需要1小时以上的时间。目前,上海电信在郊县的宽带用户以数万计,一旦出现网络故障,将会对上海电信带来巨大的损失。


基于上海电信郊县网络的现状,一贯致力于电信行业信息网络管理的IT基础架构供应商Avocent认为,上海电信需要建设郊县带外网管来实现应急管理。

带外管理解决方案:构建运营商郊县网络应急通道


为了避免单点故障,上海电信每个郊县都有两个节点,7个郊县一共14个节点。考虑到成本问题,Avocent认为初期在每个郊县的主节点放置一台CONSOLE服务器,未来可以在郊县的第二节点建设带外系统。


如下图所示,带外网管结构通过CONSOLE服务器连接到郊县路由器、交换机的CONSOLE口,一台CONSOLE服务器可以同时管理多台设备。只要工程师能够通过网络或拨号等其它方式访问CONSOLE服务器,就可以对设备进行控制。在图中,所有的CONSOLE服务器可以通过ADSL专线方式单独组网,汇聚到漕溪的网管中心,同时,在网管中心放置一台MANAGER(可选配置)管理所有的CONSOLE服务器。

图:用带外管理构建运营商郊县网络应急通道

通过Manager可以实现所有郊县网络设备集中访问控制,对于所有通过Manager登陆的用户行为,日志可以记录, Manager对所有带外网管系统管理的设备通过CONSOLE接口的报警均可以向网管中心发出告警。


网管中心的工程师通过访问MANAGER可以管理所有的设备,即使设备无法通过网络正常访问。通过这种方式,工程师解决问题就不用到现场处理,这可以大幅降低解决故障的时间。


通过在CONSOLE服务器上设置不同的用户组别和权利,电信工程师可以分成不同的组维护不同类型的设备,还可以设置对工程师通过CONSOLE服务器上进行的操作进行记录。

结论:带外网管可为电信城域网提供立竿见影的价值


一旦采用了Avocent的带外网管,当城域网 "突然"发生事情时,上海电信的工程师可以凭借Avocent解决方案强大的功能轻松处理任何问题。
●设备访问通道:带外网管访问设备通过设备的管理接口完成,即使被访问设备失去网络连接。通常在路由器发生严重故障时,网络服务会中断,此时可以通过CONSOLE接口以命令行的方式控制。由于可以使用SSHV2安全方式访问设备,不会象普通TELNET方式容易被窃取用户名和密码。
●集中访问控制:所有的访问均通过CONSOLE服务器进行时,所有的设备访问人员均实时显示在统计页面上,网管可以实时监控系统访问状态,结合活动日志就可以有效的抵御来非授权访问行为。采用集中认证方式,可以使原来分散的安全认证行为得到改善。设备单独认证带来的问题是如果所有设备采用同一密码口令,安全性低,如果每个设备采用不同的口令,增加了管理负担,同时降低了使用效率。为了提高系统安全性,需要定期更换设备口令,由于城域网大多数设备是路由器和交换机,需要尽量减少访问,这是摆在运维部门面前的难题。有了带外网管系统,问题迎刃而解,在CONSOLE服务器上定期更改控制设备端口的密码口令,即方便又快捷。
●分级授权管理:在CONSOLE服务器上可以设置不同的组,对于每个组授予访问不同类型设备的权限,方便运维部门不同岗位人员的授权管理。
●活动日志:在用户通过CONSOLE服务器访问设备时,所有的活动包括显示的内容配置的命令都会以LOG日志方式存储到本地或异地的日志服务器上。在系统管理权限开发给外部的工程师厂商工程师)时,这个功能非常重要,一旦由于对方误操作带来问题,工作日志是最好的证据。有了活动日志,系统管理员可以在线实时监控通过CONSOLE服务器登陆用户的操作,进行在线指导。
●故障告警:路由器或服务器在出现故障时都会通过控制接口发出告警,比如端口shutdown等信息。CONSOLE服务器可以对设备通过管理接口发出的信息过滤,对于符合定义条件的告警信息,以SNMP TRAP或PAGER方式发到网管中心。由于告警信息的实时性,使网管中心可以在第一时间得到告警信息。在出现告警的时候CONSOLE服务器上可以定义自动反应机制,比如对于一个常见的故障需要接口重启)通过一系列固定操作就可以解决。系统管理员可以定义一个脚本,在特定的故障信息出现时,CONSOLE服务器会自动向设备发出一系列命令,使故障立即得到解决。
Avocent 解决方案应用很简单,有了带外网管,电信城域网可以轻松获得良好的可用性、集中的运维模式、高度的安全规范,电信工程师能够从任何位置接入网络并安全和可靠地管理网络,当城域网有了最为简单的网络管理模式和最为高效的问题处理能力,相信电信运营商的服务质量将会得到质的飞跃,用户的满意度也将随之提高。

相关内容

    暂无相关文章