知道何时该当机立断

有时候,了解一些简单的常识也可能是保障服务器正常运行时间最大化而又无须突破预算的最佳方法。“硬件就是硬件。到了某个时间,它总是会损坏的,”Gabiam说。“所以重要的是要了解发生了什么问题,然后准备好一个计划,一旦问题再次发生时就不会手忙脚乱。”

利用常识同时也意味着要知道什么时候该当机立断,减少损失,向新的设备转移,而不必去管按常规是不是到了替换周期。“如果你的IT人员经常要花费25%的时间去忙于到处救火,支持早已过时的系统的话,那么谁还看不出来这是巨大的时间浪费呢?”Beddoe反问道。

尽管让服务器的正常运行时间最大化会产生一些额外的工作量,但是大多数IT经理都认为最终的回报会远大于体力的支出。“很难说花在正常运行时间上的哪些努力会是白费的,”Luludis说。“你所做的任何事情都是会有帮助的。”

Beddoe认为,努力争取最大的正常运行时间,几乎都会保证创建一个更可靠的数据中心。他主张一个“积极的环境”——一个持续不断地激励工作人员去确认并遏制那些可能引起任何危害的潜在问题的环境,这是保障服务器正常运行时间最大化的关键。“17年来,我们从未发生过影响到客户利益的重大宕机事件。”


相关内容