更新时间:2023-07-19 22:08
IT服务连续性,起源于业务连续性,是业务连续性的子集。IT服务连续性最佳实践是业务连续性最佳实践与数据中心业务特点相结合的产物。IT服务连续性知识体系的开创者是《IT服务连续性实现指南》一书的作者姚强。
IT服务连续性,是IT服务这个对象的属性之一。IT服务的属性包括安全性、可靠性、可维护性、可用性、连续性、可管控性、可扩展性、经济性等。
“IT服务连续性”指在主IT资源失效后备份资源的恢复能力。IT资源连续性指标主要包括高可用恢复时间指标、灾难恢复时间指标(灾难RTO)、灾难恢复时间点指标(灾难RPO)。
IT服务的连续性能力、可靠性能力和可维护性能力共同决定了IT资源的可用性能力。
下面分别定义IT服务的可靠性、可维护性、可用性:
“IT服务可靠性”指IT资源稳定运行的能力,通常用平均无故障工作时间(MTBF)来度量,例如,某路由器的MTBF达到20000小时,则该路由器在正常环境下使用时的故障率低于0.438次/年。
“IT服务可用性”指IT资源在一定时限内的可用率。例如,某个应用系统的可用性达到99.99%,则该应用系统每年的停机时间小于53分钟。IT资源的可靠性能力、可维护性能力和连续性能力决定了IT资源的可用性能力。
“IT服务可维护性”指IT资源可进行日常维护和自检、可产生故障报警、可通过配件修复等方面的能力,通常用平均维修时间(MTTR)来度量。
IT服务连续性知识体系的开创者是中国大陆第三位DRII(国际容灾协会)业务连续性专家认证(认证号10180)的获得者姚强,他曾服务于IBM、EMC(Dell)、SUN(Oracle)、Centrin、Teamsun等企业,曾在IT服务连续性领域进行了20多年的探索、实践与创新,曾通过清华大学出版社发表《IT服务连续性实现指南》一书,该书在全球范围内首次将业务连续性最佳实践全面应用于IT领域,开创性地建立了IT服务连续性知识体系,促成了业务连续性全球最佳实践在IT领域的落地,促进了IT服务连续性人才的培养,帮助众多数据中心实现了“少停机、少丢数、少花钱”的夙愿。
IT服务连续性实现指南一书共有15个章节,各章内容概要如下:
第二章 剖析IT服务
本章内容旨在通过面向对象的方法让读者对“IT服务”形成透彻的认识,主要包括4部分内容:
1. 介绍IT服务的属性,包括功能、性能、可扩展性、可靠性、安全性、可管控性、连续性、时段性、可用性、经济性。
2. 介绍IT服务在企业生产要素框架(包括产品与服务、业务、各实体生产要素、数据中心)中的定位。
3. 介绍业务(包括关键业务目标、业务属性、重要业务、核心业务、业务流程之间的关系、业务流程之间的启停次序)及IT服务和业务的关系。
4. 介绍IT服务在数据中心生产要素框架中的定位,介绍IT资源及其与IT服务的关系,介绍IT流程及其与IT服务、IT资源的关系,介绍IT组织及其与IT流程、IT资源、IT服务的关系。
第三章 剖析IT事件
本章全面介绍IT事件的来龙去脉,让读者对“IT服务”形成透彻的认识。主要包括6部分内容:
1. 分析IT事件的前因,介绍IT威胁源和IT威胁源消减措施。
2. 定义IT事件的类别。
3. 介绍IT事件的后果,定义IT损害的类型,分析IT事件影响的衍变过程并详细介绍了IT服务影响、业务运营影响、企业影响、社会影响。
4. 介绍IT事件级别的划分方法。
5. 阐述IT事件与业务运营中断事件的关系“IT事件和由此引发的业务运营中断事件是一个事件,只是从IT视角和业务视角来分别命名,只是从事件的起因和事件的结果来分别命名”。
6. 阐述IT服务连续性的意义
第四章 全景展现灾难性IT事件
本章通过8个分镜头真实还原某银行因机房火灾导致生产中心灾难的案例,让读者身临其境般感受了企业各条线执行IT事件应急响应与灾难恢复行动的全部过程,旨在帮助读者直观认识重大IT事件应急处置相关的团队、资源、流程、任务。
第五章 IT事件应对过程
介绍整个企业范围内的IT事件应急处置活动框架,介绍每项任务的执行细节,为企业各条线执行IT事件应急联动任务提供详细指引。
第六章 IT应急处置机制
本章详细介绍IT条线在IT事件应急处置过程中需要具备的三类机制,为IT条线开展IT应急处置机制建设提供指引。
第七章 企业层面IT事件应急处置机制
本章详细介绍企业层面在重大IT事件应急处置过程中需要具备的应急组织、应急预案、应急场地,为企业层面开展重大IT事件应急联动准备活动提供指引。
第八章 业务条线IT事件应急处置机制
本章详细介绍业务条线在IT事件应急处置过程中需要具备的应急组织、应急预案、应急场地,为业务条线开展IT事件应急联动准备活动提供指引。
第九章 IT应急处置机制开发过程
本章详细介绍IT应急处置机制开发活动框架中的各项活动,为数据中心开展IT应急处置机制(包括IT应急响应机制、高可用备份机制、灾备机制)建设提供系统化的方法论。在本章中,作者基于自己多年来对IT服务连续性理论和实践的不断总结和提升,提出了许多独到的见解,定会让读者耳目一新。
第十章 IT服务连续性管理过程
本章介绍“确保IT应急处置机制能够全天候为IT服务连续性保驾护航”所必须的IT服务连续性管理活动框架(包括IT服务连续性规划、IT服务连续性设计与实施管理、IT服务连续性运维管理、IT服务连续性风险管理、IT服务连续性绩效管理、IT服务连续性内部控制、IT服务连续性内部审计等),阐述每项管理活动的管理目标、核心管理活动框架、管理角色与职责、管理过程、核心管理活动的方法步骤等。本章内容旨在弥补国内数据中心在IT服务连续性管理方面的短板,为数据中心的IT服务连续性管理活动提供系统化指引,增强IT管理者对事后恢复的信心。
第十一章 IT服务连续性管理体系
本章依据“体系”的定义原则,即“目标一致、相互之间存在紧密作用、归属同一个知识领域、具有共同的清晰边界的要素构成一个体系”,定义IT服务连续性管理体系框架。该框架首次清晰界定了IT服务连续性知识体系与其他IT知识体系的边界、界定了IT服务连续性资源与其他IT资源的边界、界定了IT服务连续性活动与其他IT活动的边界、界定了IT服务连续性团队与其他IT团队的边界。本章还介绍“定义IT服务连续性管理体系的意义”,包括推动IT服务连续性知识体系的专业化发展、促进IT服务连续性行业的专业化分工、促进数据中心系统化地开展IT服务连续性管理体系建设活动。
第十二章 IT服务连续性管理体系的边界环境
本章逐一介绍IT服务连续性管理体系的边界要素,旨在帮助IT服务连续性管理人员形成全局性、系统性认识。
第十三章 IT服务连续性内审关键审核事项
本章从IT服务连续性知识领域出发,针对IT服务连续性审计活动框架中的每项审计活动,详细罗列关键审计事项、审计标准、被审计人员、需要获取的证迹,为IT内审人员提供迄今为止最切合实际、最完备、最详细、最具针对性的IT服务连续性审计指引。
第十四章 IT服务连续性管理体系成熟度模型探究
本章基于实现IT服务连续性目标的客观需求及COBIT定义的“DS4 Ensure Continuous Service”第5级成熟度模型,首次建立IT服务连续性管理体系的最高级成熟度模型。
附录A 高可用风险检查列表库
本附录旨在为IT风险评估与管理人员提供一个基本的生产环境高可用风险检查列表库。主要内容包括:
1. 网络系统高可用风险检查列表
2. 主机系统高可用风险检查列表
3. 应用软件系统高可用风险检查列表
4. 数据库系统(Oracle)高可用风险检查列表
5. 数据库系统(Informix)高可用风险检查列表
6. 机房环境系统高可用风险检查列表
7. 存储系统(EMC DMX)高可用风险检查列表
8. SAN高可用风险检查列表
IT服务连续性实现指南一书是一本系统地、全面地阐述IT服务连续性知识体系的专著,旨在为社会培养IT服务连续性领域的人才,为数据中心开展IT服务连续性活动提供详细指引,帮助数据中心实现“少停机、少丢数、少花钱”的夙愿。
该书基于大量图表,直观地阐述以下内容:IT服务连续性涉及的IT服务、业务、IT资源、IT流程、IT组织和IT事件等方面的基础概念和知识。企业各条线的IT事件应急处置行动框架与IT事件应急处置机制。以IT服务连续性目标为导向建设IT应急响应机制、高可用恢复机制和灾难恢复机制的活动框架。IT服务连续性管理活动框架,包括实现IT服务连续性所必须具备的项目管理、运维管理、IT应急处置机制就绪管理、风险管理、IT应急处置机制持续更新管理、绩效管理、内部控制和内部审计活动。
该书的读者对象包括IT应急管理人员、IT规划设计人员、IT项目管理人员、IT运维管理人员、IT风险管理人员、IT绩效管理人员、IT内部控制人员、IT内容审计人员以及准备迈入数据中心大门的所有IT人士。
该书发行于2016年,作者后续将出版新版本,补充云计算、分布式系统相关的IT服务连续性知识。
很多数据中心在IT应急处置机制建设方面的投资巨大,但IT系统仍然频繁宕机、系统恢复时间仍然频繁超标。“重技术、轻管理”只是表面原因,切实可行的IT服务连续性活动框架的严重缺乏,才是问题的症结所在,“巧妇难为无米之炊”才是IT人员的真实写照。
IT服务连续性知识体系的目标是补好IT服务连续性这块短板、培养IT服务连续性领域的人才、帮助数据中心实现“少停机、少丢数、少花钱”的夙愿。
IT服务连续性知识体系致力于解决数据中心在IT应急处置机制建设和管理过程中普遍遇到的、最迫切的下述问题:
1.数据中心的“业务”是IT服务相关的需求分析、规划设计、采购实施、交付与支持、控制改进等过程,数据中心的“业务”有其自身的鲜明的特点,当今的业务连续性方法论和最佳实践对数据中心“业务”的连续性只能提供高层次的指导,并不能提供实现数据中心“业务”连续性所需要的详细的IT服务连续性活动框架。
2.缺乏整个企业范围内的“IT事件应急处置行动框架”,导致数据中心IT应急处置行动与企业其他条线的IT事件应急处置行动难以协调联动、往往衔接不畅。
3.缺乏系统化的“IT应急处置机制开发活动框架”,导致数据中心在IT应急处置机制建设阶段无法从实现IT服务连续性这个总体目标出发去进行IT服务连续性总体需求分析、总体规划设计,而是各自独立地开展IT应急响应机制建设、灾难恢复机制建设、高可用恢复机制建设,导致这些机制之间往往衔接不畅。
4.缺乏“IT服务连续性管理活动框架”,再加上IT应急处置机制的复杂性及日新月异的IT环境,导致IT应急处置机制投产后可能会随时失效或处于IT服务连续性能力不可确定的状态,最终结果是IT高级管理人员对IT服务连续性能力缺乏信心、甚至巨大的IT投资付诸流水。
5.由于以上IT服务连续性活动框架(由IT事件应急处置行动框架、IT应急处置机制开发活动框架和IT服务连续性管理活动框架组成)的缺失,导致数据中心难以完整地、明确地定义IT服务连续性团队、角色和职责,难以体现 “谁主管谁负责”的原则,导致“人人有责,人人都不负责”,最终结果是隐患不断、乱象丛生。
6.在IT服务连续性内审方面,由于缺乏对IT服务连续性活动框架的整体认识,IT内审人员难以全面把握关键审核事项,导致IT服务连续性治理的薄弱。