揭开网络故障中断的内幕(1)


网络是企业的战略性业务资源,负责承载日常消息和关键任务数据,实现用户与业务流程之间的通信。对公司内部的许多用户来说,网络都是像水电一样无法看到的耗用型共用设施,一旦出现故障中断,瞬间便会凸显出来。

网络不可用时会出现什么情况?网络故障中断会对公司形象及客户产生严重影响。员工无法接入电子邮件、电话或关键业务应用,业务流程无法更新,客户可能到别处去查找信息或者投入其他供应商的怀抱。据Infonetics Research早期开展的调查统计,网络故障中断每年使大型企业损失3.6%的年收入。

当然,提高网络可用性只是IT和网络机构的工作之一。随着网络逐渐成为业务战略核心,企业的工作重点也朝着提供新业务、提高灵活性以及创新支持的方向转移。 保持网络的正常运行固然重要,但降低预算也同样重要。为了管理好这组矛盾体,企业需要实施持续的系统方法。

网络故障中断的原因和影响

近期对技术决策人开展的调查显示了对网络故障中断原因进行调查的重要性。Strategy Group2007年7月对Ziff Davis Enterprise数据库中的173人开展了调查,他们都是员工在100人以上的企业中的经理人或更高级别的管理者。回答人称他们对网络故障中断的容忍度越来越低,近1/3(32%)的回答人称他们根本无法容忍故障中断,这组回答人对网络故障中断的平均容忍时间仅为1.8小时。我们不难了解为什么回答人称网络修复的平均成本高达每天300万美元,其中10%的回答人预计网络故障中断造成的损失和收入丢失高达每天1000万美元。

网络故障中断的负面影响不仅限于经济损失。公司形象受损是回答人最担心的问题(69%),其次是丧失客户信任(47%)。考虑到这些潜在后果,公司将70%的IT预算用于维护网络运行,只剩下30%用于实施战略和创新活动不足为奇。总的来说,这组回答人希望这种格局在今后12-18个月中发生变化,达到60/40的比例。

近一半的回答人(46%)称他们的公司采取被动方法来监控网络并解决网络问题。有趣的是,与采取被动的无序方法的公司相比,采取主动的战略性方法的公司用于维护网络运行的IT预算更少,分别是75-80%和60-65%。减少网络运行开支能够创造多个优势,例如,与采取被动方法的竞争对手相比,采用主动方法的公司能够持续创新、提高IT运行效率并实现更高的绩效。

运行团队在提高网络可用性方面面临多个挑战。计划内检修、意外的硬件或软件故障及人为错误等都可能导致网络设备故障停机。这是一个复杂的问题,要想设计出能够最大限度地提高可用性的系统,您需要更深入地了解基本要素。

设备检修

供应商投入大量资源缩短产品的检修时间。因此,检修是网络设备故障中断的最次要的原因,约占到5-10%。一般产品现在都提供热插拔线路卡和电源。冗余的容错软件和不中断的硬件也很普遍。不中断业务的软件升级是最新发展趋势,允许您在不影响现有业务运行的情况下添加或升级软件模块。

业界的一致关注使得网络可用性得到了大幅度提高。虽然保持高性能仍是网络供应商的关注焦点,但它并不能最大限度地提高网络可用性。例如,假设计划内检修对网络故障中断负有5-10%的责任,将网络设备的检修时间缩短20%只能将网络的故障中断时间缩短1-2%。

网络设备故障停机的根源

图1:网络设备故障停机的根源

遗憾的是,这种方法将快速生成多个复杂的、分散的软件版本。用户必须谨慎选择适当的软件版本以便获得重要的特性或硬件支持。有时,不同的软件版本中可能会重复出现以前曾修复好的缺陷。需要全网络特性的客户必须仔细阅读软件文档以确保版本适用于所有不同的硬件平台。等到所有的版本完成编码、测试和最终发行,可能需要等待一年或更长时间。许多时候,升级这些软件可能会带来其他问题,需要客户先行降级,然后等到修复包提供时再实施升级。升级-降级-再升级的重复流程需要操作团队处理不断变化的一系列复杂的软件版本,将会延长网络的故障中断时间。

系统错误对网络故障中断负有25%的责任,但如果供应商采取被动方法,将迫使客户进入被动模式,进而必须提供更多资源来解决问题,甚至不惜动用其他领域的资源。您用在软件版本评估及安装补丁上的时间越长,用在创新上面的时间越短、资源越少;全新网络服务的部署周期越长,人为错误的风险越大。对于25%的故障中断因系统错误而起的公司来说,减少20%的系统错误将使网络故障中断时间缩短5%,但实现这个成效要求客户投入大量资源或者长时间延期全新软件特性和全新硬件的面市计划。


相关内容