系统错误

供应商还高度重视减少硬件和软件错误,据瞻博网络的许多客户称,这部分占到网络故障中断的25%。然而,他们对此使用了两种截然不同的方法:主动和被动。

被动方法

被动方法有利于市场宣传,供应商承诺能够快速响应重大问题,将倾其所有来解决此类问题,必要时可通过实施软件补丁来解决问题。

主动方法

主动方法听起来简单,但却需要非常严格的工程设计。由于某些问题在所难免,因此,这个方法论注重提前预测并解决潜在问题。对客户来说,主动通知诊断信息可帮助他们缩短甚至避免某些类型的网络故障中断。通知时间越早,故障排除工作开始地越早,用于快速解决问题的可用方法越多。

对于供应商来说,主动方法允许他们集中精力确保按时推出全新的单一软件版本。他们能够逐渐积累一套高级的回归测试脚本,以确保以前开发的所有特性都能继续如期运行。通过避免安装软件补丁以及不断添加软件版本,客户将腾出更多时间用在网络特性和新平台的研究上,缩短潜在的升级评估和测试时间。使用被动方法来解决问题的供应商看似优势多多,但总抵不过不出现任何问题吧?

人为因素

据调查,人为错误对网络故障中断负有50-80%的责任。但在复杂的系统环境中,出现人为错误的原因往往不是能力欠缺。包含多个组件并涉及到多类互动活动的复杂系统创建了复杂的环境,在此,组件之间的微妙关系往往不为人知。

人为错误不是导致出现问题的直接原因,而是环境复杂性的征兆。因此,我们得出这样的结论:降低和管理网络复杂性将对网络故障中断时间产生最为巨大的影响。将人为错误减少20%可将网络故障中断总时间缩短10-16%,是减少系统错误的2-3倍,是缩短检修时间的8-15倍。

是责备犯错人还是从错误中吸取经验教训?

避免人为错误的传统方法以责备和惩罚为主。这种方法的重点是找出犯错人并评估后果,认为错误是人员不合格、判断失误或决策错误导致的意外事件,要是没有人类活动参与其中,系统就是安全的。这种战术基于对犯错人进行严责,让他们感到深深的挫败感,鼓励人们隐藏自己的错误而不是从错误中吸取经验教训。

现在的新方法趋向于检测、纠正和防止错误,重点关注具体发生的事件、如何在将来防止它重复发生,以及在第一时间找到导致出现错误的系统组件(这一点最重要)。这种方法认为管理复杂的系统是一门需要持续改进的艺术,人类活动对于实现这种改进至关重要,错误常是一系列活动的综合作用结果。本着持续改进的态度,这种方法鼓励人们识别错误,积累经验。

手动输入复杂的配置命令是网络中出现人为错误的最常见的原因。即便是资深工程师,也难免会将防火墙放置在错误的接口上(如他们用于与路由器进行通信的接口)、在过滤器列表中输入错误的IP地址、或者在配置业务时犯下语法错误或丢失自变量。具体的操作指南和仔细的检查可避免某些问题,但会减慢响应速度。紧急情况下,压力和频繁的中断将会大幅度提高出错几率。

网络供应商一直让他们的客户自己纠正人为错误,只提供基本的培训和知识库来帮助客户管理错误。瞻博网络始终高度重视JUNOS软件中的人为错误,力求简化并自动实施容易出现人为错误的主要程序。通过近期的创新成果,瞻博网络将自动化功能应用到了大量的脚本编制工具中,以便进一步解决造成网络故障中断的人为因素。


相关内容