云环境下的容灾，云环境容灾

文章由LinuxBoy分享于2019-03-27 04:03:41热评（645）

云环境下的容灾，云环境容灾

声明：

本博客欢迎转发，但请保留原作者信息!

博客地址：http://blog.csdn.net/halcyonbaby

内容系本人学习、研究和总结，如有雷同，实属荣幸！

云环境下的容灾

什么是容灾？
简单的说是对灾难的而应对策略。比如火灾，盗窃，人为损坏，火山，地震，洪水，战争，飓风等自然灾害或者人为灾害。
RTO/RPO
RPO(Recovery Point Objective): 指灾难后可能恢复到的时间点。涉及丢失业务数据的多少。
RTO(Recovery Point Time): 指灾难发生后，业务恢复所需的时间。
容灾的分类
按RTO分：cold, warm, standby
按RPO分：同步同步，异步同步，离线同步
按业务数据同步技术：基于主机复制，基于阵列复制，基于存储网络，基于虚拟机内代理，基于应用本身能力（如数据库复制能力）
HA与容灾的区别
HA主要处理单组件的故障，DR则是应对大规模的故障。
也有一些从网络视角区分两者的，LAN尺度的认为是HA的范畴，WAN尺度的任务是DR的范围。
从云的角度看，HA是一个云环境内保障业务持续性的机制。DR是多个云环境间保障业务持续性的机制。

AWS容灾方案

AWS的方案从用户场景看有如下几类：

cold
是三种方案中费用最低，RTO最长(>1 day)的方案。
使用S3做数据备份，灾难发生时，重新申请虚拟机，利用备份数据恢复。
数据备份可以使用普通的http, vpn, aws directconnect等链接，快照/备份技术进行业务数据的同步。
pilot light
相对经济的一种容灾方案，RTO时间(<4hrs)一般。
使用replicate/mirror方式进行业务数据同步。
容灾端虚拟机在灾难发生后启动。
standby
相对较贵的一种容灾方案，RTO时间(<1hrs)最好。
使用replicate/mirror方式进行业务数据同步。
容灾端虚拟机一直运行中，但是不提供服务。
这种方案分两类，一类是容灾端虚拟机与生产端虚拟机等量，切换后所能提供的业务容量相同。另一种是容灾端保持较小的容量，切换后能提供业务能力但是业务容量较小，需要再进行扩展。

Openstack容灾

整体架构
Openstack的DR整体架构如下图。
至于是否会是一个新的项目，目前并没有规划。目前主要关注于在nova/cinder/补齐功能，编排主要通过heat实现。
后续可能成为一个独立项目甚至独立与openstack的项目。
功能
fail over(灾难后切换备节点）
fail back(主站点故障恢复后切换会主站点）
test(容灾演练)
方案介绍
目前没有详细的方案。只有一个hight level的设计。
现在还在gap识别，补齐阶段。
现状
目前主要集中在用例分析、整体框架设计阶段。
具体的实现主要集中在cinder侧元数据、业务数据同步相关。但是进展不乐观。

参考

https://wiki.openstack.org/wiki/DisasterRecovery
https://wiki.openstack.org/w/images/4/49/Openstack_disaster_recovery_-_openstack_meetup.pdf
http://redhatstackblog.redhat.com/2013/11/26/disaster-recovery-enablement-in-openstack/
http://blog.celingest.com/en/2013/03/05/disaster-recovery-in-aws/
http://blog.celingest.com/en/2013/03/19/disaster-recovery-aws-high-availability-architectures/

容灾云是什？

"简单说就是用云存储技术对企业数据进行备份，实现对数据的持续保护，Hyperstor就不错，HyperStor是一个提供数据保护及信息管理的一体化解决方案，该方案使用新一代的架构模式以及成熟的数据保护技术，为数据中心各种应用和系统提供数据保护和信息管理操作，具体包括：数据保护、数据归档、内容安全、法规遵从、电子发现以及存储管理等。
HSCDP 是北京兴宇科技股份科技有限公司自主研发的、服务器级持续数据保护系统。适用于各类大中型机房的服务器组群、数据库系统和关键业务系统，如电信、金融、军队、数据中心、科研院所、政府和能源等领域，对数据机密性与安全性要求高、数据量庞大的中高端用户。HSCDP 是一款高性能、大容量的数据保护设备，采用一体化的系统构架和全新的数据保护模式，用户无须关注数据的保护过程，在设定策略后HSCDP 会自动完成所有相关的数据保护操作，无需人工干预。在意外的数据灾难发生后，可以直接实现数据的快速恢复，确保各类关键数据的安全性、完整性和连续性。"

三种远程容灾方式,哪种适合你?

在信息系统普遍成为企业运营命脉的今天，通过构建远程容灾机制来保证业务持续性，已得到企业管理者们普遍的认可。然而，远程容灾技术的类型众多，且架构大多十分复杂，不但投入的软硬件设备与时间成本庞大，后续的维护成本也高得吓人，因此，尽管有意构建者众多，但大都踌躇不前。以备份磁带为基础的远程容灾，是目前企业广泛采用的方式，管理者只需定时将数据备份到离线的磁带，再通过人力运送到远程保存即可，一旦有灾难发生，要先将IT设施修复，再从磁带中恢复系统和数据。这种远程容灾的方式虽然成本最低，但冗长的恢复时间（通常需要数天甚至数周）所造成的运营损失，以及备份/恢复时间的非实时性所造成的数据丢失，显然已经超出了现今企业所能忍受的范围。理想的远程容灾架构，应该是以无限的广域网络为基础，通过远程的数据复制（Remote Replication）技术进行的在线（on-line）异地容灾，这样才能符合企业RTO与RPO的要求。通过网络的连接，将本地端的数据复制一份到远程保存，听起来似乎不难，但在复杂的IT架构下，要想成功实现确也并不容易。经过数年的技术发展，在线远程容灾产生出了以下两种类型：主机型（Host based）和存储系统型（Storage based）。主机型远程容灾：局限性很大主机型远程容灾，简单的说，就是通过安装在服务器的数据复制软件（如Veritas Volume Replicator），或是应用程序提供的数据复制/灾难恢复工具（如Oracle Flash Recovery Area），利用TCP/IP网络连接远端的容备服务器，以异步方式进行数据复制。主机型远程容灾的优点是在服务器较少的环境下，所需的成本较低，用户不需更换太多现有的系统架构，也不用担心后端存储系统的兼容性问题，只需支付软件的授权费和灾备端的硬件设备费用即可。但如果是服务器数量较多的环境，管理上的复杂程度就会增加，整体的投入成本也会增加。

推荐文章：

云环境下的容灾，云环境容灾