浅淡网络运维的紧急故障处理及对策(1)


导读:为了提高广大初入此行的网管读者们的紧急故障处理水平,故策划了本文,将这几年来的经验撰写出来,与读者分享管理思路和控制管理能力的思维。

随着信息化进程的飞速发展,网络已经成为每个现代企业必须的要素之一。相对于网络维护,网络运维更加侧重于保障网络系统的正常运行,运维有运行和维护两层含义。对于一个系统,有时出错我们无法预知,系统越复杂,其难维护难度更大,为了减少损失,我们尽可能地去预防各种错误,对于突发情况,尽可能地去修复。

紧急故障解决的通用流程

在本文开始前,笔者先给出紧急故障解决的流程图,见图一。

浅淡网络运维的紧急故障处理及对策

图一

根据上述流程图,我们可以一目了然明白处理网络运维的紧急故障的处理流程。

当客户端发生网络中断的故障后,首先判断用户或终端)到三层网关设备之间通道是否存在问题,从用户或终端)上ping网关是否能通,用户或终端)自身是否发生问题。

二层网络是否正常:如果用户或终端)ping网关不通,则检查下端二层网络、用户网线、三层网关设备以下网线或光纤是否正常,端口是否UP,是否有CRC error报文统计。检查二层网络中的交换机设备是否能正常学习到用户MAC地址,检查三层网关设备与二层交换设备之间的连通性、二层设备的CPU利用率是否正常,是否有二层环路造成或病毒攻击。首先确保用户或终端)能正常ping通网关设备。

三层网络是否正常:可以通过telnet/console口登陆三层设备,如果有问题,通过ping、tracert、show logging、端口统计、CPU利用率统计、链路状态、路由表状态、MPLS标签表状态等对问题进行分析,在业务忙时,不得擅自重启或倒换三层核心路由器等设备。

如果用户上网或承载业务仍然存在故障,可以查看DNS等外界环境是否正常,承载的业务本身是否发生问题,查看相关告警,然后做出相应的处理。

其它问题,如果现场不能解决,就通报关键用户并联系厂商解决。

在本文中,笔者就以网络不通的故障为例,讲解网络运维的紧急故障处理的比较通用的思路和解决方式。

假设有一天,接到通知报告网络不通了。给人的第一感觉是某个服务出现异常而中断,比如打不开OA页面,或者打不开Google页面。让我们看看,一个合格的运维人员是如何循遵怎样的思路来寻找故障的原因并解决的。


相关内容