根据google停机100分钟的启示,整理《服务失误的应急处理办法》。 1. 事故发生后立即分析问题严重程度,原因在哪里,何时能够修复。 2. 立即跟踪用户反馈,如果用户产生异议,及时与外界沟通。 通过官方博客/公告板/迷你博客或等个渠道及时更新状态,通报问题,处理进展,告知用户可以选择的临时解决方案(例如:本次事故只影响×××,而*** 服务仍然正常),安抚客户情绪,缓解客户投诉。 3. 问题处理完毕后向客户致歉,并详细介绍问题的来龙去脉和后续跟进工作,检讨自身工作,赢得客户理解。 4. 技术部门检讨本次事故出现原因,调整改进,预防下次同类事件发生。客服部门优化事件处理流程,和技术部门配合,第一时间掌握进展,根据具体情况采取合适的应对策略。 5. 故障隔离非常重要,如果某个数据中心发生了问题,不应该影响另一个数据中心的服务器。 6. 如果大量服务器同时超载,它们应该延长响应时间,而不是直接拒绝服务、提升负载。 7. 事后客服部门整理典型事故类型,预备模拟解决方案。
Posts Tagged ‘100分钟’
2010年03月1日

