Tom Limoncelli的系统管理员团队管理32问,limoncelli团队管理他从1987 年开始


Tom Limoncelli 是就职Google 的一位系统管理员,运维界知名的系统管理员,作者与演讲者。他从1987 年开始从事系统运维与网络工程师的工作,在全世界多个有关系统运维与网络安全的大会上进行演讲。2000 年之前,Tom 一直在at&T 贝尔实验室(后来的Lucent 贝尔实验室)工作,从系统/网络管理员逐步升职为高级网络架构师;之后的几年间,他参与过创业团队,为佛蒙特州州长的竞选者担任过IT 技术支持,也做过咨询顾问。在今年的系统管理员日前后,他专门撰写了一个清单,列举了提高系统管理员团队工作效率的32 个问题。32 个问题共分7 大类,从不同的方面强调了系统管理员需要加强的工作流程。

部署一套请求跟踪系统是比较常见、没啥技术含量的基本做法。

这32 个问题的解决过程并非一蹴而就,对这些问题仔细思考,相信会对您未来的工作规划带来启发。人们常常向我问及,应该如何提高自己系统管理员团队的工作效率。要找到根本性的症结只需一番简短的讨论,根源得到解决,整个团队的生产力及服务质量将自然而然得到大幅度提升。

所谓症结并不只是制造麻烦,重点在于它会分门别类、有组织有计划地制造麻烦。

举例来说:部署一套请求跟踪系统(或者“项目管理系统”)是比较常见、没啥技术含量的基本做法。但该系统事实上一直在以许多明显或不甚明显的方式支持着我们的团队。如果没有这套系统,我们可能面临着以下类型的风险:忽略重要请求方面的问题、来自用户的的每个请求都可能打断正常处理流程的问题、对技术团队的工作内容不了解而无法实施管理的问题、总体业务趋势无从把握的问题、团队内部成员间不能高效承接任务的问题。

从根本上解决问题乍看起来似乎涉及大量工作内容,但置之不理会必然会带来更多的麻烦。Joel Spolsky 所创立的“Joel 测试:改进编码的十二步法”堪称杰作,其以十二个问题为引,用看似漫不经心、草率粗略的测试精确评估出了软件团队的实际工作能力。而我则希望在本文中向大家展示自己为系统管理员所打造的另一套测试。这里共有32 个只需以是或否作答问题。与十二步法类似,我的测试也相当漫不经心、草率粗略。

这套测试应该会简化对团队进行基本评价的实施流程。这对团队管理者、企业领导及团队成员都非常实用。这同样是一套对于求职者极有帮助的方法:千万别误上了贼船,通过这一系列问题事先考量好新雇主的业务水平。最终得分并不重要,真正重要的是应对的态度:不愿或表示无力改变现状的心态才最最危险、最最需要警惕。

红色文字标记的项目是最根本性的内容,它们是我书中不可或缺的基础思想所在。其它项目当然也不能说不重要,只是对于某些规模较小的企业来说也许不太适用。以下就是Limoncelli 的测试:有助于提高系统管理员团队工作效率的32个问题。你准备好答题了吗?

将所有请求保存在一套数据库中有助于团队内部对信息的共享。——自测题目 #1

A.面向公众的处理方式:

1. 有没有通过项目管理系统对用户请求进行跟踪?
2. “三大授权策略”是否经过具体定义并加以发布?
3. 整个团队的运行状态每月是否依各细则指标加以衡量并备案?

B. 现代化团队处理方式:

4. 你在维基词条中是否具备独特的“策略及流程”类说明?
5. 日常所采用的密码安全性有保障吗?
6. 技术团队的代码是否处于源码控制系统的监管之下?
7. 你的团队有没有使用bug 跟踪系统?
8. 在你的bug/ 项目管理方面,稳定性问题的优先级是否高于新功能?
9. 你的团队有坚持记录“设计文档”的习惯吗?
10. 一旦发生问题,有没有一套机制专门用于记录故障信息?

C. 业务操作方式:

11. 每项具体服务都具备操作文档吗?
12. 每项服务是否都得到了适当的监管?
13. 你有没有部署过寻呼轮换机制?
14. 业务流程中是否具备彼此独立的开发、质量保证以及生产系统?
15. 在某套方案进行大范围推广前,有没有事先进行过必要的试点?

D. 自动化处理方式:

16. 有没有在业务中使用到类似cfengine、puppet 以及chef 之类的配置管理工具?
17. 任务自动管理机制是否在身份账户的制约下进行?
18. 电子邮件的自动化生成处理是不是只在必要时启动,而非靠满纸荒唐言来拼凑使用率?

E. 团队管理方式:

19. 有没有一套专门的数据库用来管理所有计算机设备?
20. 操作系统安装是否达到了完全自动化?
21. 整个团队中的软件升级及补丁更新是否做到了自动化处理?
22. 有没有一套完整的硬件更新规章?

F. 硬件发生故障时的处理方式:

23. 当某块硬盘发生问题时,你的整套服务器体系能否继续运作?
24. 网络核心有没有做到N+1 ?
25. 你的备份工作是自动完成的吗?
26. 有没有定期测试灾难恢复方案的制度或计划?
27. 你数据中心内的设备具备远程电源/ 控制台访问功能吗?

G. 安全性处理方式:

28. 业务中所用到的台式机、笔记本电脑以及服务器是否运行着自动更新且无需确认提示的反恶意软件?
29. 企业中是否向员工下发了书面的安全性规章制度?
30. 你有没有对所有相关领域进行周期性的安全审查?
31. 是否有相关机制允许管理者在一小时内关闭所有用户账户?
32. 是否有相关机制允许管理者在一小时内改变所有特权密码?

这32 道问题,尤其是星号标记的问题,你回答了多少个“”?如果还有多项没有做到的话,那么这就行动起来吧!

相关内容