基于道熵统一存储平台的容灾与备份解决方案

数据信息是企业最宝贵的资产。

导读:新基建时代,企业信息化规划与建设成为提升企业竞争力的重要措施。数据作为信息系统的重要组成部分,一旦受到不可抗力或人为因素的破坏,不但会给企业的正常运转带来严重影响,还可能使企业的信誉遭受重创,给企业造成不可估量的损失。

数据信息是企业最宝贵的资产。

数据备份容灾一直广受关注,企业对于关键数据的备份与容灾更是郑重相待,传统的存储架构FC SAN 或NAS不仅存在数据孤岛、扩展性差等弊端,而且缺乏原生的业务与数据的容灾与备份功能。

云计算与大数据分析是提升企业效率的一个重要手段。无论是员工工作效率、领导层决策质量、还是管理效率,都取决于企业数据处理与分析的能力。因此,企业迄需一个统一的数据存储平台,以实现数据的统一管理和统一分析处理,满足IT基础架构的敏捷性、弹性和扩展性的需求,同时可大幅提升资源的利用率与运维管理的效率。如何在统一数据存储平台基础上,实现高效的容灾与备份功能,成为一项关键的技术挑战。

 

1 什么是道熵统一存储平台

道熵统一存储平台是一款基于x86通用服务器集群的分布式统一存储平台,采用业界领先的双重RAID架构,支持FC、iSCSI、iSER、NFS、SAMBA、S3、FTP/SFTP、Openstack Cinder、VMware VAAI、Kubernetes CSI等多种标准存储协议,帮助用户在一个统一管理的存储平台上部署多种业务,包含各种数据库、虚拟化、Openstack私有云、K8S容器云、办公OA、ERP、CRM、共享文件系统、数据湖等应用。

道熵统一存储架构图

道熵统一存储平台采用双重RAID架构,即节点内RAID与跨节点分布式两副本相结合的两层RAID数据保护。每个节点在功能上相当于一个小型的磁盘阵列,采用存储虚拟化技术对节点内存储资源进行RAID保护与池化管理,并向上提供多个虚拟卷(vOSD),为跨节点的分布式副本保护提供存储服务,用两副本保护的分布式技术把各个节点(磁盘阵列)整合为一个支持横向扩展、高可靠、高性能的统一存储平台。与普通分布式三副本架构相比,双重RAID架构不仅保留了分布式的高扩展性的特点,在每个节点上,通过节点内RAID技术和存储虚拟化技术,增强了系统稳定性和数据可靠性。节点内RAID可有效对硬件故障进行隔离,并实现本地数据修复,而跨节点分布式副本保护则提供更高层级的数据保护。由于每个节点都存在RAID保护,随着节点数增多,系统能够容忍的硬件故障能力也随着增强。相比于传统中高端存储产品,道熵统一存储平台的分布式架构能够带来更好的扩展性和按需投资能力,降低了总体拥有成本。软件定义基于 x86 服务器则简化了 IT 架构,结合硬件故障隔离、数据自恢复等特性,大幅降低运维难度。

2容灾RTO与RPO

建设同城双活数据中心或者异地灾备机房,为核心生产系统建设同等处理能力的备份系统成为金融、电信、政府、电信、医疗、电力、交通、教育等行业的普遍需求。容灾的两个衡量标准是:恢复时间目标(RTO)和恢复点目标(RPO)。

简单来说:RTO是业务中断的时间量,RPO是业务数据丢失的时间量。当RTO和RPO都大于0时,即为容灾方案;当RTO=0和RPO=0时,则称之为双活方案。

依据国家标准《信息安全技术-信息系统灾难恢复规范》规定,灾难恢复登记划分为6级。

第一级:基本支持;

第二级:备用场地支持;

第三级:电子传输和部分设备支持;

第四级:电子传输及完整设备支持;

第五级:实时数据传输及完整设备支持;

第六级:数据零丢失和远程集群支持;

将这六个级对应到相应的RTO和RPO指标参考要求如下:

基于道熵统一存储平台的容灾与备份解决方案

图1 灾难恢复能力等级及RTO、RPO指标要求参考

 

3 伸展集群(Stretched Cluster)双活数据中心

伸展集群(Stretched Cluster)将道熵统一存储平台(分布式存储集群)从一个数据中心(站点)扩展到两个数据中心(站点),以实现更高的可用性和容灾恢复。伸展集群通常部署在同一城市或园区之内,两个数据中心之间的距离通常不超过100公里,且有专用的高速低延迟通信线路相连接。

用户可以使用拉伸集群来实现站点维护计划以及满足容灾需求,因为一个站点的维护或意外丢失,无论是通信故障、意外掉电、火灾还是其他灾害,不会影响集群的整体运行。在拉伸集群配置中,两个数据站点都是活动站点,同时提供存储服务。如果其中一个站点发生故障,存储服务将自动切换到另一个站点。

每个伸展集群由两个数据中心(站点)和一个仲裁主机组成。仲裁主机通常是一台1U或2U服务器,驻留在第三个地点。它只包含元数据,不参与用户数据存储操作。一个最小的双活伸展集群包含两台存储服务器(每个站点各一台)和一台仲裁主机。单个数据中心最大可支持512个节点。

两个数据中心与仲裁主机形成3个独立的故障域。当任何一个站点出现服务中断故障,另外一个站点与仲裁主机将自动剔除故障站点,继续提供存储服务。当故障排除后,集群将新的数据自动同步到曾出现故障的站点。

当两个站点之间的网络连接丢失时,则必须对站点的可用性做出选择,仲裁主机起到了第三方见证和仲裁的作用。在这种情况下,仲裁主机通常会与其中一个站点形成一个集群,并屏蔽另一个站点。当被屏蔽站点再次在线时,数据会重新同步,以确保两个站点都有所有数据的最新副本。

伸展集群使用两个数据中心之间数据同步复制的策略来提供跨站点的冗余和故障保护。每个站点因此形成一个独立的故障域。每个数据块至少有两个副本,确保每个故障域(数据中心)至少保存一个数据副本。每个站点由一个或多个存储节点构成,每个节点内部还具有节点内RAID数据保护,比如RAID10、RAID50、或RAID60,称为本地数据保护,当硬盘出现故障时,可通过节点内的RAID功能实现数据本地恢复,既不占用网络带宽,也不会引起站点之间数据迁移或同步。当节点完全失效时,节点上的数据可自动迁移到本站点其余的节点上。当某个站点增加节点时,该站点上的数据可自动迁移部分数据到新的节点,使得存储空间的使用在站点内更加均衡。

用户也可以将一个站点指定为主站点。其他站点将成为辅助站点或备选站点。在无故障状态下,存储业务由主站点提供。只有在主站点不能提供服务的前提下,业务切换到备选站点。在大数据分析和AI训练及应用中,带有典型的反复读取大量数据的特点,可以选择将主站点配置为高性能的全闪存(SSD固态硬盘)站点,辅助站点为混合型(由SSD和HDD构成)站点,以较低的成本获得更高的性能。

伸展集群的数据中心网络采用二层交换机堆叠技术,即MC-LAG(Multi-Chassis Link Aggregation Group),以满足接入层、汇聚层的二层跨设备冗余、以及L3核心交换机的跨设备冗余。每台存储服务器分别连接MC-LAG中的任意两台交换机,任何网口或交换机出现网络故障都不会导致业务中断,具有极高的可靠性和故障包容能力。根据数据中心的规模大小,可以选择是否仅使用汇聚交换机,或使用更高性能的核心交换机。

基于伸展集群的双活数据中心适用于两个站点A、B间的 物理距离不超过100公里,数据网络往返时延RTT(Round-Trip Time) 不超过5毫秒,网络带宽速度不小于10Gbps。在此前提下,双活数据中心可实现RTO=0, RPO=0最高级别的灾难恢复能力。当两个数据中心的物理距离超过100公里以上,建议采用基于异步复制方法实现远程容灾与恢复功能。

4 基于异步复制的远程容灾与恢复

当数据中心之间的物理距离超过100公里以上时,数据网络往返时延RTT(Round-Trip Time) 会大于5毫秒。在强一致性同步集群中,所有副本都必须完成写操作才算该次写操作成功。当网络延迟较大时,异地的副本写操作因延迟变得响应迟钝,拖垮整个集群的写性能。因此有必要采用基于异步复制的远程容灾方案。

道熵统一存储平台支持两地或多站点之间,通过异步复制技术手段实现远程容灾与恢复。其原理非常类似数据库如PostgreSQL或Mysql的主从同步机制,基于日志回放(replay)实现本地站点和远端站点数据同步。

具体来说,道熵分布式存储集群采用块镜像服务来实现两个或多个集群之间的数据异步复制,如下图所示,每个集群可启用一个或多个块镜像服务,负责从远端集群中周期性取回写日志数据,然后在本地回放,从而实现多站点异步复制的目的。

为配合块镜像服务,当用户执行IO write操作时,首先会写入日志(journal),一旦写入完成会向client发起ACK确认,然后执行集群的写入操作。远端站点的块镜像服务会周期性取回日志,根据日志执行回放操作。如下图所示:

基于异步复制的远程容灾与恢复方法,可实现RTO < 数分钟,RPO 约等于零的容灾保护级别(第6级)

5 存储虚拟化网关与连续数据保护(CDP

基于多种因素,用户的数据中心往往由多个厂家的磁盘阵列设备或云存储平台组成。针对异构存储系统实现统一的备份与容灾功能,成为用户非常迫切的需要。2020年2月发生的微盟运维核心人员删库跑路,以及以Wannacry为代表的勒索病毒的全球爆发,对备份容灾提出了更高的要求,即除了RTO、RPO指标要求,还要求能快速恢复到此前指定时刻点的数据状态,称之为连续数据保护(CDP)。

道熵存储虚拟化网关是统一存储平台的一个重要软件功能,可针对异构存储系统,实现统一数据管理与容灾备份管理,并可实现连续数据保护功能。道熵存储虚拟化网关可运行在两台互为冗余的x86服务器上,可外接扩展存储柜,也可接入第三方FC、iSCSI,以及兼容Ceph的分布式存储集群作为存储后端。存储虚拟化网关通过FC、iSCSI、NFS、SAMBA等通用存储协议对前端应用提供高可用存储服务,其内部通过存储虚拟化管理软件,实现异构存储的统一数据管理和多种高级软件功能,包含数据迁移、分钟级无限制快照、数据回滚与克隆、在线数据压缩、数据去重、固态硬盘(SSD)缓存加速、在线数据完整性校验与自修复、性能监控、硬盘健康管理等。

用户可选择在本地或远端采用write-out-of-place管理用户数据,通过提供分钟级无限制快照,保持用户系统环境中的数据变化,并对变化的数据生成增量快照进行保护,数据保护的时间间隔可精确到分钟级别,故称连续数据保护。一旦故障发生,可以通过克隆或快照回滚对应时间节点的快照,将数据恢复至所需的历史状态。存储虚拟化网关可持续创建无限个快照,用于数据恢复,用户可实现一张数据库表、某个文档、一个文件夹、一个卷乃至整个磁盘的恢复。一旦故障发生,可以调用对应时间节点的快照,将数据恢复至所需的历史状态。恢复过程快速、精确、简便,避免了传统备份软件数据恢复所需的长时间等待的问题,特别适用于抵御删库跑路、勒索病毒的破坏。

存储虚拟化网关提供基于块的异步远程复制功能,将本地数据复制到异地的一套道熵容灾备份存储一体机,从而实现远程容灾和备份。在备份站点,道熵容灾备份存储一体机采用相同的存储虚拟化管理软件,通过无限制快照实现分钟级别的连续数据保护。同时,存储虚拟化网关还支持云备份,周期性将快照上传到Amazon S3存储,或其他公有云/私有云的兼容S3 对象存储。为节省上传带宽,上传过程可采用增量方式,即仅将快照之间的变化数据上传S3存储。

存储虚拟化网关用于实现满足3-2-1规则的容灾与备份策略:3-2-1规则是一种高级数据保护策略,可确保关键任务企业工作负载的数据安全和业务高可用。 具体是业务数据具有三个数据副本(一份本地,一份远程,一份云端),存储在至少两个不同保护方式上(本地和云端),其中一个存储在非现场。

6 总结

道熵统一存储平台是一款基于x86通用服务器集群的分布式统一存储平台,采用业界最先进的双重RAID架构,不仅满足数据中心对IT基础架构敏捷性、弹性和扩展性的需求,同时大幅提升资源的利用率与运维管理的效率。道熵统一存储平台具备极其强大的原生容灾与备份能力,不仅支持两地三活数据中心的伸展集群部署方式,同时也支持基于异步复制的远程容灾与数据恢复。存储虚拟化网关可针对异构存储系统,实现统一数据管理与容灾备份管理,并可实现连续数据保护功能。

来源:业界供稿

0赞

好文章,需要你的鼓励

2021

04/11

19:11

分享

点赞

邮件订阅
白皮书