三、试验数据分析

选择在一个相对稳定的局域网192.168.1.网段)内搭建实验环境,这样可以在测定监控系统运行稳定性的同时,通过断开、连接网线的操作,实时模拟测试各种异常情况的发生.这里只给出基本的测试数据.

其中,以1.171作为监控的服务器,160、208、211三台主机作为被监控的客户端.当服务器分别收到三个被控端的IP地址,就会以60秒为周期分别对三台服务器进行实时监控;每间隔10分钟做一次统计写日志操作该时间周期用户可调).

正常情况下,日志会每隔10分钟记录一次收发总包数和丢包率.为了测试超时中断情况,拔掉192.168.1.160的网线模拟网络中断,再查看日志.

此时,日志文件会记录下每次响应超时的状况,并在该次探测失败时上报告警消息至维护台,然后,统计数据时算出当前1.160服务器的丢包率.监控系统运行时,其它方向的统计信息并未因该方向丢包而受到影响,各个客户端的统计信息是相互独立的.另外,也应该对网内响应时间超过100ms的数据包记录统计100ms指代网络延时过长的阀值),以供查看整个网络是否处于超负荷工作状态.

在记录当前时间、IP地址和序列号的同时,具体响应时间也被详细列出,以供维护人员定位故障时间和故障的严重程度.

该监控系统已经在Windows、Linux、Unix、Vxworks等系统平台上进行过稳定性测试,可正常使用.笔者针对测试过程中遇到的一些问题做如下总结,以供参考.

在发送端上,往返时间的计算结果有时可能为0 ms.这是因为程序所在的某些服务器CPU时间精度最低只能到10ms级,低于10ms的时间精度无法取得,只能以数字0代替.

测试发现,通常第1个响应消息的往返时间值要比其他的大.这是由于目的端的硬件地址不在ARP高速缓存中的缘故.在发送第一个回显请求之前要发送一个ARP请求并接收ARP应答,这需要花费几毫秒甚至几十毫秒的时间.

在网络运行中,正常工作状态是:响应时间趋近于0,报文丢失很少或没有,并且报文按序抵达.如果报文丢失较多而响应时间低或报文乱序抵达,说明网络硬件可能出错.在以太网中,可能是线缆终端故障,线缆分段故障或中继器故障.首先检查线缆终端,它很容易出故障,尤其是终端器放在用户可碰到的工作区中;然后看中继器的工作状态,长时间使用的中继器出问题的几率也比较高.

如果在广域网上进行测试,则上述报文丢失较多而响应时间低的现象可能属于正常范围.由于TCP/IP适用于不可靠网络,某些广域网的报文丢失率可能较高.但是若对于安全级别要求较高的电信级网络而言,上述现象一定表明出现网络故障,需要马上进行问题排查.

四、应用情况及其缺陷

现阶段,该监控方法已经应用于大唐电信SCDMA多组组网中,为核心交换网络的底层传输系统提供监控,在工程应用中获得了良好的效果.在给已开发的网络管理系统项目中也使用了该监控方法,对整个网络的底层通信状态进行监控.应用前景及可扩展性都较好.

但是,该方法也存在一定的弊端.如果不能Ping到某台主机,那么,就不能Telnet或FTP到那台主机,即网络可能存在问题.随着Internet安全意识的增强,出现了提供访问控制清单的路由器和防火墙.一台主机的可达性可能不只取决于IP层是否可达,还取决于使用何种协议及端口号.监测程序的运行结果可能显示某台主机不可达,但可以用Telnet远程登录到该台主机的25号端口邮件服务器).即此方法不适用于有防火墙和限制IP功能的网络.要使用该模块,必须关闭服务器上相应的防火墙功能.

五、结束语

网络传输层是整个现在通信系统的基础和核心,其好坏直接影响到上层应用程序实现的质量.利用ICMP协议开发的这种监测方法提供了对底层传输物理设备包括网卡、hub、路由器或者网线等物理设备)的实时监测.并能满足多服务器跨平台的复杂组网监控需求.

通过使用该监测系统,在网络出现问题时,能迅速定位故障,以检修或更换相应的硬件设备,并通过配合其他诊断方法的使用查找详细故障原因,从而大大减少了网络故障排查时间,为设备维护减少了人力和物力的投入.

今后,可以通过给该系统扩展类似Windows系统下的tracert功能,使该监控系统应用于不同网段的高等级分级监测,这样将有助于更详细地监控整个商业运行网络的状态,精确定位网络故障.这种扩展有待于研究和开发.


相关内容

    暂无相关文章