我们先来看几个问题:灾备全称是什么?跟容灾一样吗?CDP、HA、双活是什么?与应用级灾备的区别在哪?BCP、DRP、BCM又是什么?它们之间的联系与区别呢?灾备是服务还是产品?这些问题可能我们都没有有一个清晰的认识,接下来就剖开这些问题来一探究竟。
1.灾备(Backup and Disaster Recovery),翻译的大概意思为灾难恢复和备份。也就是说灾备包括灾难恢复和备份两部分。先来说备份,因为备份是前提,是基础。百度百科的解释,备份是指为应付文件、数据丢失或损坏等可能出现的意外情况,将电子计算机存储设备中的数据复制到磁带等大容量存储设备中。维基百科上英文的解释为:Backup refers to the copying and archiving of computer data so it may be used to restore the original after a data loss event。中文和英文都提到了复制以及备份的原因和目的,不同的是在英文还提到了archiving归档技术,这也是复制和备份的主要区别。数据复制是实时将源端数据同步到目标端,源端和目标端拥有相同的数据版本。而备份的数据,可以归档,生成很多数据版本。当源端数据丢失时,可以用备份数据进行恢复。如果实时备份,就是CDP (持续数据保护),至少精确到秒级,恢复至灾难前的任何一秒。对于运维人来说很牛逼了,数据几乎零丢失。但是,市面上CDP技术原理不同,问题也就来了:
1)备份的数据是离线的、静态的,数据是否可用存在不确定性,当数据恢复时,有没有有信心保证应用可以正常启动和运行是验证CDP的很好标尺。
2)数据恢复速度取决于带宽和磁盘I/O性能,过程不可控。因为灾难发生后,网络可能中断,机房受损,异地的备份数据也无法及时恢复。
所以当前主流灾备方案是建立应用级灾备(应用级别CDP),以上说的仅仅是基于数据的CDP。
2.双活,有人觉得,我们是双活了,而且是高可用双活,还需要建立应用级灾备吗?双活,是一个很宽泛的概念。广义上讲,双活是两个或多个数据中心,每个都具有独立运行生产应用所需要的所有资源。通过全局负载均衡将请求动态分配到不同的数据中心。当其中一个数据中心故障时,另外一个数据中心接管所有的应用请求。但实际上,在建设双活时,通常是指同城双活数据中心,目的是想充分利用灾备数据中心的价值。落地的双活方案包括不同的层面:
大部分是数据库双活,如Oracle RAC、DB2 GDPC;
有些是网络双活,如大二层打通;
或者是存储双活,炒作比较多的方案,存储双活并不代表应用双活;
还有些应用双活,在证券、银行行业应用双活主要指读写分离;
有的是业务双活或异地多活,但在证券行业无案例。异地多活涉及应用开发,在互联网应用的某些核心功能模块上有一些异地多活的方案。业务级双活还没有成功案例,证券、银行类行业双活多指同城双活,因为有距离要求。
高可用(High Available)就是我们所讲的HA,只要是业务不中为断,或者中断时间在业务接受范围之内,都可以说高可用:
99%的高可用性意味着一年宕机时间不超过4天;
99.9%的高可用性即为一年宕机时间不超过10小时;
99.99%的高可用性表示一年宕机时间不超过1小时;
99.999% 的高可用可用性即一年宕机时间不超过6分钟。
所以在遇到别人讲双活时,一定要多问一句,是哪个层面的双活,每个层面的双活,都有不同的方案。现在的问题是缺乏整体的解决方案,在完成成型的方案出来之前,只好先从局部做起。在金融行业也一样,双活多指同城双活。同城双活建设和运维成本较高,而且无法应对区域性重大灾难。所以在要求稳定、安全、合规的金融行业,建立应用级异地灾备是基本要求,也是比较经济的解决方案。
3.应用级灾备可以及时验证数据和系统的准确性、可用性。当执行灾难恢复时,不存在数据恢复步骤,直接切换或者应急接管应用。这一套应用切换和应用接管演练流程就是常说的灾难恢复预案(属于应急预案范畴)。应急预案指面对突发事件如自然灾害、重特大事故、环境公害及人为破坏的应急管理、指挥、救援计划等,它一般应建立在综合防灾规划上。几大重要子系统包括:
完善的应急组织管理指挥系统;
强有力的应急工程救援保障体系;
综合协调、应对自如的相互支持系统;
充分备灾的保障供应体系;
体现综合救援的应急队伍等。
灾难恢复预案是BCP(业务连续性计划)的重要组成部分。
业务连续性计划是企业从业务运营角度,按照业务流程规范和管理要求,为不同级别的灾难,从人(部门)、技术(灾备)和流程(预案)三方面综合设计各项流程和不同级别的应急响应,使企业在突发事件面前能够迅速作出反应,确保关键业务功能可以持续,而不造成业务中断或业务流程本质的改变。所以除灾难恢复预案外BCP还包括:业务影响分析、非财务风险分析、灾难恢复策略和应急响应等内容。DRP (灾难恢复计划)聚集技术方案、IT基础资源恢复和运营恢复,是在BCP之后的。为什么灾难恢复预案属于BCP,而不是DRP呢?因为BCP是面向业务,BCP的计划和制定需要业务部门参与。具体的灾难恢复实施DRP由IT部门主导和执行。DRP+BCP+供应链管理+危机管理等就是BCM (业务连续性管理)。关于BCM涉及很多内容,BCM理念在国外比较普及,上至国家、下至企业和公民都很重视,如经历911之后的西方和位于太平洋地震带的日本和印尼。国内近半世纪以来都在稳定、繁荣、和平地发展,特别是一二线城市,以致BCM意识普遍还比较薄弱。
4.灾备基本概念:灾备是灾难恢复和备份。备份容易给人感觉是数据备份,停留在数据视角,灾备的最原始阶段,没有体现业务连续性的思想。而现在,灾备必须朝着应用级方向发展。因为客户需要的是一体化的灾备方案,不再是单纯的产品或技术组合,而是综合、多元化、集成的灾备服务,即DRaaS(灾备即服务)。结合云计算,可以让客户按需求配置各种灾备服务。只有通过各种灾备服务,才能保障灾备中心的可用性、切换的可行性。灾备服务的内容包括:灾备建设前的规划—实施—灾备运维(演练)。从生命周期来看,灾备运维的时间占到了灾备中心生命周期的80%以上。灾备运维是一个泛称,具体的运维内容跟灾备中心级别有关。灾备中心基础设施:灾备基础运维是灾备运维的基础,是保障灾备中心基础设施稳定运行的核心要素,也是信息化业务得以安全稳定运行的根本。基础运维的核心是安全运维,需要在长期的基础运维过程中不断积累安全运维经验。
5.容灾(Disaster Tolerance),顾名思义,容忍灾难,指发生灾难时,应用软件在数据尽量少丢失的情况下,能够继续保持不间断运行。容灾体现的是信息系统的灾难应对能力,那灾备和容灾是同一个概念吗?答案是略有不同,相同在两者都包括灾难恢复和备份,不同在于容灾的能力可以体现在软件设计和开发层面,而灾备重点考虑灾难发生之后怎么应对,即能做什么,怎么做。
海境超备把数据恢复专有技术融入存储数据安全,所提供的数据保护方案,拥有专用备份存储架构和软硬协同原生架构,安全可靠,高性能设计,构建以数据为中心的存储内生安全能力。围绕数据的全生命周期,实现热数据全容灾、温数据热备份、冷数据温归档和全场景智能融合,保证客户业务不中断,数据不丢失,快速恢复业务,信息长期留存,帮助客户实现法规遵从下的关键数据高效备份,价值数据快速利用,节省数据保护投资。海境超备为各级数据中心提供全方位安全可控解决方案,包括传统,云计算和大数据中心,以及多层次,多策略,全域的产品和服务。所提供的数据保护方案,拥有专用备份存储架构和软硬协同原生架构,安全可靠,高性能设计,构建以数据为中心的存储内生安全能力。围绕数据的全生命周期,事前安全预防,事中快速响应,事后降低损失,满足存储数据容灾、同步、迁移、分发、共享、集成和管理等需求,构建高效经济、安全合规的数据资产保护体系,增强行业数据韧性。