精心规划

大多数数据中心经理都同意,仔细地规划所有与服务器相关的工作——从采购到管理到替换,是保障系统可靠性的关键性步骤。

华盛顿大学的IT运营及工程设计经理Raoul Gabiam说,生命周期管理是服务器正常运行时间规划的一个内在组成部分。“知道在何时、如何更换硬件,并升级软件是非常重要的,因为这会影响系统的性能、持续性和总体的正常运行时间。”

比方说,如果你必须做一次软件升级,那么了解清楚对硬件的需求,以及现有硬件的状态就是至关重要的。你或许得购买硬件来满足软件升级的需求,以避免出现更多的宕机,Gabiam解释道。

Gabiam还强烈地推崇标准化与协调,作为确保服务器可靠运营的方法。“在任何人安装任何东西或者进行某个变动之前,必须先走一个变动管理流程。”

变动管理就是要了解“每件东西是如何配置的,并在实施变动之前对变动做出评估,”Gabiam说。“用这种方法,你就总能了解清楚哪些事情是不允许的,哪些事情可能会产生相互影响。”

他说,遵守变动管理的纪律,就可能预见到以某种方式配置服务器,或者将其安放在一个新环境中时会产生什么影响。

在线资源公司是一家为金融机构提供交易服务的企业,其CTO Paul Franko认为,工作态度也会产生巨大作用。他说,他进行了一项额外的努力,以确保常规但很关键的服务器相关工作能够被认真严肃地对待,并及时得到处理。

“我们提出了一套系统检查与平衡机制,以确保我们的各种规则能够被遵守,”他说。按照Franko的说法,经理们必须常规性地检查下属的管理工作,再辅之以其他手段的双重检查,就可以把人工失误降至最低限度。“是人就会犯错,如果你没有设置多个检查点,事情就会滑向错误的一边。”


相关内容