灰尘杀手 网络风暴故障排除实例


近日因朋友请求,帮助解决了一个网络故障,在这里我愿将其中的心得向大家讲一讲。先跟大家介绍一下故障现象,有几台D-Link交换机直接上联至Cisco交换机的相应端口,同时有部分工作站直接连至Cisco交换机。开始是在工作站上观察到程序执行时偶尔有等待现象,后来越来越严重,等待时间越来越长,网络服务速度变得非常之慢,直到几乎不能运行,各个工作站请求无法得到响应,最终网络陷入瘫痪状态。据用户反映这种情况时有发生。最多时一天发生6、7次多,而且经常发生工作最忙的时候,严重影响了工作。由于找不到原因,每次的临时解决方法只能是关闭各个工作站,将服务器关掉后,重新加载。

到达故障点没有多久,老毛病就犯了。观察各个集线器和交换机的指示灯,闪烁不停,可以肯定网络数据流量很大,再查看服务器CPU的利用率为97%,非常高。在保持连接的状态下,试着将用户从服务器上一个一个删掉,当删到其中一个用户时,服务器没有响应,无法继续进行。本着先易后难的原则,手工断开所开工作站的物理连接,重新启动服务器后,单独接入笔记本电脑进行杀毒操作,没有任何作用。

在交换机上接入一台网络测试仪FLUKE 683 进行测试,结果数据显示基本正常。通知所有用户恢复工作,大约半小时后问题重新出现,此时测试仪结果如下:网络平均流量为75%~94%,明显偏高许多。碰撞率为12.3%~14.2%,广播为56%~89%,错误为5%~7%.一般来说,网络的正常流量在0.7%~8%之间波动,显然是大量的非法数据帧占了大量的带宽,测试仪显示非法数据帧主要是广播帧,为了查清其中原因,启动测试仪的“Error Statistic”功能,结果显示,错误类型为超长帧、帧不全、FCS帧等,并显示错误来源是一台MAC地址为0050BAA7493F的工作站。通过 F683的“Top Sender”测试,显示广播帧来源也是该工作站。

由于此网络建网较早,没有完整的网络档案,无法得知该工作站的物理位置,只好逐个断开集线器的连接,再在该扩展网段通过人工逐个查找到该台工作站后,将其关闭。几分钟后,网络恢复正常。为确定是否是该工作站的问题,重新开机加入网络服务,约20分钟后网络速度变慢,应用程序响应明显有滞后感,测试仪显示出现较多的非法帧。再次关闭该工作站片刻后,测试仪显示网络参数恢复正常。最终,我确认网络故障是由该工作站引起的。

据该工作站的用户反映,该点速度较早以前就比其它机器慢,因为影响不是太大,就没有告知网管员。检查此工作站,发现机器内灰尘不少,几乎看不出板卡的原样,特别是网卡。由于网卡边上留了一机箱挡板空位,使之成为了机箱的进风口,日久天长就在网卡上占了一层厚厚的灰尘。将机箱内的灰尘清理干净,网卡上出现有清理不掉的灰尘,干脆换了一个新的,加了电测试大约1.5小时,网络正常。   到此为止,维护工作圆满结束。

通过这次故障解决,看出来因为灰尘大量附着在网卡上,加上最近空气湿度较大,灰尘过多,使该网卡发送大量的广播帧,而广播帧对以太网络影响最大,它可以穿过网络中的网桥、集线器和交换机,形成“广播风暴”,占用了整个网段上设备通道的带宽,使得有用的数据帧无法传输。这样,无论是否处于接收/ 发送状态的站点也会因为接收大量的广播帧导致频繁向宿主申请中断,使CPU达到了很高的资源利用率,而自己的应用程序却无法得到处理。

所以,我建议各个网管员们要定期清理工作站的灰尘,尤其现在是夏天快要来临之际,应尽量保持各个工作站环境的清洁,另外就是各个工作站用户如果发现自己的机器有异常现象,应立刻向网管员反映情况,由网管员进行判别处理,及时将故障处理掉。

  1. 网络故障排除实例:解决网内终端无法通信的故障
  2. 理清思路有步骤解决奇怪的网络风暴故障
  3. 交换机VLAN技术在校园网络上的应用

相关内容