老外教你让服务器正常运行时间最大化(1)


保持服务器的正常运行和唤醒状态,或者至少准备好一旦有需要就立刻投入运行,这个目标可能是所有数据中心经理们最渴望实现的目标之一(51CTO推荐阅读:以魔兽世界为例 网游服务器搭建方案图解)。

然而很少有数据中心经理们能够诚实地说,他们所做的一切绝对都是为了让系统的正常运行时间最大化。专家们说,事实上很多经理都把大量的时间和金钱浪费在了很少或者不能对正常运行时间产生积极作用的技术和实践上去了。

美国金融数据服务商Six Telekurs负责IT运营与后勤保障的副总裁Walter Beddoe认为,实现正常运行时间的最大化既是科学也是一门管理艺术。“需要将诸多不同的东西组合在一起,包括可胜任此项工作的人员,利用容错硬件,采纳动态安全、良好的维护与变更管理实践等。最重要的是,你必须承诺尽最大可能将一切做好。”

普林斯顿一家诊断医学成像公司Princeton Radiology的IT部门主任Alan Howard敦促其属下不要把时间和资源浪费在不能直接对提高正常运行时间有贡献的行为和工具上面。比方说进行集群的努力就是“相当浪费的”,还不如冗余配置再辅以工具更能实现全自动化。

不能自动化的集群——其中的同步需要手工完成——可能会引起更多的问题,Howard说。“某个主节点一旦失灵就可能是灾难性的;与其让主节点失灵再去恢复它,还不如让备用节点失灵更好些。”

他举例说,他的团队做了一个Windows Server的集群,用作失效备援,结果却导致了应用程序的崩溃,因为该应用配置文件的一个变动未能及时拷到备用服务器上去。“修复应用崩溃故障所花费的努力往往要比修复一个集群节点失灵故障的努力大多了。”

之后,他的团队就不再配置传统意义的集群服务器了。相反,他们配置了一个“单独的备用服务器集群”——并将该集群全部映射到一个双控制器的Compellent存储中心SAN上,“这样我们就能够基本上无缝地按需迁移虚拟机了。”


相关内容