云环境下的容灾,云环境容灾


声明:

本博客欢迎转发,但请保留原作者信息!

博客地址:http://blog.csdn.net/halcyonbaby

内容系本人学习、研究和总结,如有雷同,实属荣幸!


云环境下的容灾

  • 什么是容灾?
    简单的说是对灾难的而应对策略。比如火灾,盗窃,人为损坏,火山,地震,洪水,战争,飓风等自然灾害或者人为灾害。

  • RTO/RPO
    RPO(Recovery Point Objective): 指灾难后可能恢复到的时间点。涉及丢失业务数据的多少。
    RTO(Recovery Point Time): 指灾难发生后,业务恢复所需的时间。
    architecture

  • 容灾的分类
    按RTO分:cold, warm, standby
    按RPO分:同步同步,异步同步,离线同步
    按业务数据同步技术:基于主机复制,基于阵列复制,基于存储网络,基于虚拟机内代理,基于应用本身能力(如数据库复制能力)

  • HA与容灾的区别
    HA主要处理单组件的故障,DR则是应对大规模的故障。
    也有一些从网络视角区分两者的,LAN尺度的认为是HA的范畴,WAN尺度的任务是DR的范围。
    从云的角度看,HA是一个云环境内保障业务持续性的机制。DR是多个云环境间保障业务持续性的机制。

AWS容灾方案

AWS的方案从用户场景看有如下几类:

  • cold
    是三种方案中费用最低,RTO最长(>1 day)的方案。
    使用S3做数据备份,灾难发生时,重新申请虚拟机,利用备份数据恢复。
    数据备份可以使用普通的http, vpn, aws directconnect等链接,快照/备份技术进行业务数据的同步。
    cold1cold2
  • pilot light
    相对经济的一种容灾方案,RTO时间(<4hrs)一般。
    使用replicate/mirror方式进行业务数据同步。
    容灾端虚拟机在灾难发生后启动。
    pilot light1pilot light2
  • standby
    相对较贵的一种容灾方案,RTO时间(<1hrs)最好。
    使用replicate/mirror方式进行业务数据同步。
    容灾端虚拟机一直运行中,但是不提供服务。
    这种方案分两类,一类是容灾端虚拟机与生产端虚拟机等量,切换后所能提供的业务容量相同。另一种是容灾端保持较小的容量,切换后能提供业务能力但是业务容量较小,需要再进行扩展。standby1standby2standby3

Openstack容灾

  • 整体架构
    Openstack的DR整体架构如下图。
    至于是否会是一个新的项目,目前并没有规划。目前主要关注于在nova/cinder/补齐功能,编排主要通过heat实现。
    后续可能成为一个独立项目甚至独立与openstack的项目。
    openstack_dr_arch
  • 功能
    fail over(灾难后切换备节点)
    fail back(主站点故障恢复后切换会主站点)
    test(容灾演练)
  • 方案介绍
    目前没有详细的方案。只有一个hight level的设计。
    现在还在gap识别,补齐阶段。
  • 现状
    目前主要集中在用例分析、整体框架设计阶段。
    具体的实现主要集中在cinder侧元数据、业务数据同步相关。但是进展不乐观。

参考

  1. https://wiki.openstack.org/wiki/DisasterRecovery
  2. https://wiki.openstack.org/w/images/4/49/Openstack_disaster_recovery_-_openstack_meetup.pdf
  3. http://redhatstackblog.redhat.com/2013/11/26/disaster-recovery-enablement-in-openstack/
  4. http://blog.celingest.com/en/2013/03/05/disaster-recovery-in-aws/
  5. http://blog.celingest.com/en/2013/03/19/disaster-recovery-aws-high-availability-architectures/

容灾云是什?

"简单说就是用云存储技术对企业数据进行备份,实现对数据的持续保护,Hyperstor就不错,HyperStor是一个提供数据保护及信息管理的一体化解决方案,该方案使用新一代的架构模式以及成熟的数据保护技术,为数据中心各种应用和系统提供数据保护和信息管理操作,具体包括:数据保护、数据归档、内容安全、法规遵从、电子发现以及存储管理等。
HSCDP 是北京兴宇科技股份科技有限公司自主研发的、服务器级持续数据保护系统。适用于各类大中型机房的服务器组群、数据库系统和关键业务系统,如电信、金融、军队、数据中心、科研院所、政府和能源等领域,对数据机密性与安全性要求高、数据量庞大的中高端用户。HSCDP 是一款高性能、大容量的数据保护设备,采用一体化的系统构架和全新的数据保护模式,用户无须关注数据的保护过程,在设定策略后HSCDP 会自动完成所有相关的数据保护操作,无需人工干预。在意外的数据灾难发生后,可以直接实现数据的快速恢复,确保各类关键数据的安全性、完整性和连续性。"
 

三种远程容灾方式,哪种适合你?

在信息系统普遍成为企业运营命脉的今天,通过构建远程容灾机制来保证业务持续性,已得到企业管理者们普遍的认可。然而,远程容灾技术的类型众多,且架构大多十分复杂,不但投入的软硬件设备与时间成本庞大,后续的维护成本也高得吓人,因此,尽管有意构建者众多,但大都踌躇不前。以备份磁带为基础的远程容灾,是目前企业广泛采用的方式,管理者只需定时将数据备份到离线的磁带,再通过人力运送到远程保存即可,一旦有灾难发生,要先将IT设施修复,再从磁带中恢复系统和数据。这种远程容灾的方式虽然成本最低,但冗长的恢复时间(通常需要数天甚至数周)所造成的运营损失,以及备份/恢复时间的非实时性所造成的数据丢失,显然已经超出了现今企业所能忍受的范围。理想的远程容灾架构,应该是以无限的广域网络为基础,通过远程的数据复制(Remote Replication)技术进行的在线(on-line)异地容灾,这样才能符合企业RTO与RPO的要求。通过网络的连接,将本地端的数据复制一份到远程保存,听起来似乎不难,但在复杂的IT架构下,要想成功实现确也并不容易。经过数年的技术发展,在线远程容灾产生出了以下两种类型:主机型(Host based)和存储系统型(Storage based)。主机型远程容灾:局限性很大主机型远程容灾,简单的说,就是通过安装在服务器的数据复制软件(如Veritas Volume Replicator),或是应用程序提供的数据复制/灾难恢复工具(如Oracle Flash Recovery Area),利用TCP/IP网络连接远端的容备服务器,以异步方式进行数据复制。主机型远程容灾的优点是在服务器较少的环境下,所需的成本较低,用户不需更换太多现有的系统架构,也不用担心后端存储系统的兼容性问题,只需支付软件的授权费和灾备端的硬件设备费用即可。但如果是服务器数量较多的环境,管理上的复杂程度就会增加,整体的投入成本也会增加。
 

相关内容