注意局域网环路引起的广播风暴


笔者公司局域网采用的是星型拓扑结构千兆以太网技术,中心机房配备一台华为6506三层路由交换机,各楼层采用华为3026或者背板堆叠的2026 接入核心交换机,各部门计算机通过直接接入或用级连方式通过接入层交换机接进网络。中心的服务器有多台,提供FTP、文件服务、Web等多项服务。全网分为5个VLAN,根据业务不同为不同网段定义了IP地址。
随着接进网络PC的不断增多及信息流量的增加,在网络维护中遇到过各类问题及故障,现在分析其中影响较大的一个故障,谈谈在管理与维护上的一点经验和体会。

◆故障现象
某日有多个用户反映网络连接情况时通时断,有时同一楼层的计算机都无法互相Ping通,故障用户分布在多个楼层,故障点不集中。对个别端口做互换测试,故障仍然存在。在故障计算机上进行测试,发现可以Ping通网络中的部分服务器或计算机,Ping核心交换机的IP地址常出现不通、丢包、时延大的现象。利用华为的网络软件对可管理的交换机做检查,没有明显的报错。

◆故障排查
首先怀疑为核心交换机物理故障,观察交换机的指示灯状态以及各端口的状态,显示正常。对核心交换机清除缓存、关闭重启,并检查交换机的配置情况,没有改变。
经过以上的检查和测试,分析故障应该不在硬件部分,利用Sniffer抓包分析软件将网络中的数据包抓下来分析,发现有大量数据包来自同一个MAC地址,目的地址是根本不存在的IP,怀疑是类似于“冲击波杀手”一类会造成网络堵塞的蠕虫病毒。根据网络正常时建立的IP地址及MAC地址对应表查出该机属于某层的一台PC,初步确认故障点后将MAC地址对应的计算机从网络中断开并升级杀毒软件,然后重新接入网络,此时故障仍然存在。
为了确定具体故障点,要求该单位提供其接入拓扑图分析,发现该单位将分属于两个不同VLAN的连线分别连接两个不同的Hub,当天为了使用方便,将两个Hub用级联的方式连接到了一起,将其连线断开后,故障彻底排除。

◆故障原因
此次故障原因分析主要是由于网络中有环路存在,造成每一帧都在网络中重复广播,引起了广播风暴。要消除这种网络循环连接带来的网络广播风暴可以使用STP协议生成树协议),以网络中一台交换机为节点生成一棵转发树,而树是没有环路的,这样所有的数据都只在这棵树所指示的路径上传输,就不会产生广播风暴,但由于SPT算法的开销非常大,所以交换机上都未启用该协议。
为避免在接入层出现同样的故障,从而影响整个局域网络用户的使用,所以在接入层启用树生成协议是必要的,或者在诊断故障时可以打开SPT协议协助确定故障点。

◆经验总结
在故障发生时,应首先了解故障前网络的改动,建立完善的网络文档资料。包括网络布线图、IP及MAC对应表等,否则在确定MAC地址端口时会消耗大量的时间。现在有很多局域网工具软件都可以通过扫描获取网络中的计算机的这些信息,如LanExplorer等。


相关内容