FreeOZ论坛

标题: 面试百题大讨论之十二:举例:你如何不小心犯技术错误导致重大故障并且如何recovery? [打印本页]

作者: guigua    时间: 30-5-2007 23:20
标题: 面试百题大讨论之十二:举例:你如何不小心犯技术错误导致重大故障并且如何recovery?
反正我没答出来,直接告诉他们我没这经历,但我说,在技术上我是个很严谨的人,而且公司在技术管理上有成熟的流程,这些流程都是历史上的lesson learn,我自己也根据同事的失误develop过一些process作为标准在内部实施。我以前的公司是ITIL-based运维,而且拿到了ISO20000-------这要求每个工程师都要有很强的sense去follow相关process以保证IT operation的质量,经得起audit。
作者: 老大卫    时间: 31-5-2007 09:18
这道题出得好。楼主得回答则太牛了。
作者: guigua    时间: 31-5-2007 09:49
谢谢老大。有时候通过“炫耀”自己工作过的著名公司的强大实力和成熟管理方式,也能从侧面增强interviewer对我的信心-----从大公司里出来的人素质低不了。
作者: 老大卫    时间: 4-6-2007 10:45
还有其他的回答吗?不是做技术的,没有这样的经历
作者: akai    时间: 4-6-2007 14:13
偶没有大公司的工具经验。
从偶的非正规军作战的经验来看
1.流程制订要制订的合理 是经过实践考验的流程 而不是自己闭门造车的流程(现成的IT框架应该都是各种考验过对吧 虽然中国的行情比较特殊)
2.严格按照流程办事
比如 针对生产环境的变动 都要先经过相同的环境测试 变更前 对因为变动受影响的系统进行评估 所谓的兵棋推演啦.

3.提高个人素质 避免操作中的 技术失误.

关于Recovery
因为所有操作都是按照流程来. 一旦出现问题 我通常的工作经验是 立刻恢复修改前的Scenario .比如 你在做操作前已经
根据流程做好了snapshot(数据备份啊. 配置备份啊 等等) 我们叫 恢复原状.


在国内  计划没有变化快. 所以 没法避免. 关键是出现问题 如何恢复.  所以 各种最坏情况下 recovery policy都要做好 并且证明是policy是有效的. 老外 就不一样了.  流程定死了. 哪里出现问题 立刻 就责任到人了.
作者: 老大卫    时间: 13-6-2007 15:35
这道题是在考你面对紧急事件如何处理。所以要分如何处理和事后反思两方面去回答。

在如何处理时,一定要加入分析的过程。而不是立即去做。比如分析错误造成的影响,可能发生的还未发生的结果。然后第二步是沟通,和谁沟通,沟通什么。第三步是思考分析可能的对策以及每一个对策的pros and cons。第四步才是做。

事后反思方面包括制定什么样的制度,如何防范以及自己个人从中学到的东西。

注意理论和实际相结合阐述此题。
作者: bio    时间: 13-6-2007 22:09
拿出ITIL应该算是标准答案了,厉害
作者: chubbycat    时间: 14-6-2007 01:46
well our customers make mistakes all the time and they just call us for recovery
作者: freehand    时间: 29-1-2008 21:04
not like above , some nomal operation activities trigger software disfunction and cause the outage in the end .
brutal recovery could make things worse , the experience and deep understanding of system seems very important at this stage .
作者: Fernando    时间: 29-1-2008 21:53
对,首先要强调process,然后才是沟通和技术上的细节处理




欢迎光临 FreeOZ论坛 (https://www.freeoz.org/ibbs/) Powered by Discuz! X3.2