3、故障原因

大家知道,DNS服务器用于将用户域名转换为IP地址,一般来说不会出现什么问题。但由于某些原因,造成了类似本例的中转换地址统统指向了营业厅子网的业务服务器。业务服务器不具备路由处理功能,对发送来的IP数据包要么拒收并置之不理,要么返回目标不可达或需要重定向的报告数据包。这就是我们在ICMP监测时经常观察到的现象。

本地铁通的用户数量并不多,而且与上级网络的链路带宽为155M的ATM链路,大有富余,所以上Internet的用户其上网速度主要受子网带宽的影响。因为许多的用户要经过拥挤的无效E1链路,造成路由重定向和严重的时延。大量的IP数据包拥向只有2M带宽的子网路由器,流量达到了97%,造成子网工作速度突然变慢,路由器出现严重拥塞等现象。

4、两点建议

(1).DNS服务器要定期“体检”

基为了防止DNS服务不稳定造成业务中断或出错,不少网管人员在设置DNS服务器时都安装了备用DNS服务器,亦即安装不只一台DNS服务器。但这样做也会带来一个潜在的危险,即主DNS服务器出问题,备用自动服务器投入运行,这样会牺牲一定的网络带宽,使得系统总体性能有所下降。危险在于,性能的下降常常是在不知不觉中来到的。所以,为了保证网络经常处于良好的工作状态,网络管理人员需要定期检查DNS服务器的转换表。

本故障中的DNS指向错误导致用户的IP数据包对准了子网服务器,但如果对准的不是服务器而是中心网络本地网段中的某台机器,则故障强度会减弱,用户不会感到非常明显的速度变慢。这样可能不会感到明显的“身体不适”从而使得网络长期带病运行。就象人一样,定期的体检对及时发现疾病及其隐患是非常必要的。而如何及时发现路由优化方面的问题,也是网络定期项目测试中的内容之一,对大型网络则更有必要,必须坚持定期维护和测试。

(2).网络状况的实时监控

许多网络设备如路由器、交换机、只能集线器等都支持SNMP网管功能,但为了全面监测网络通道功能,还需要网络设备支持全面的RMON和RMON2。用这样的设备组建起来的网络其管理和故障诊断功能是很不错的。但现实的问题是,这样的网络设备价格是普通网络设备的6~10倍左右,用户难以接受。因此,为了随时监测网络的服务应用流量及其比例、来源,工作记录以及必要时进行解包分析,建议用户在重要的服务器通道或路由通道上安装监测接口。以便必要时可以随时将流量分析仪、网络测试仪接入通道进行监测和分析。这样,本故障的查找时间可以缩短到20分钟左右。当然,如果资金允许,也可以将流量分析仪长期接入通道对多个重要的网络设备进行全速率透明流量监测,这样可以把故障定位时间缩短到1分钟以内。

这次“出诊”总的来说还算顺利,其实每次出诊就是一次学习和提高的机会。也许上述案例只是个案,你可能不会遇到,但排错思路还是值得大家借鉴的。另外,最后的两点建议我希望能够引起大家的重视。

  1. 网管经验之Windows服务器DNS故障
  2. 零起步搞定DNS(网络域名)解析故障


相关内容