无论灾难规模大小,用户对于恢复的速度和无缝过渡的期望在加大。然而IT预算却并未因此而留下空间,没有关系,我们可以通过技术来弥补,在设计或更新DR策略时,IT工作者可参考以下5步来削减灾难恢复的成本。
第一步:了解恢复需要
降低成本最重要的一种方法是了解在一个数据中心宕机事件中你需要恢复什么。通过为每个应用建立恢复点目标和恢复时间目标,你就能做到,但要注意考虑到非结构化数据。
尽管大多数数据中心都被应用吞没,但这中间只有5%是任务关键型的。尽管这些应用只占据数据中心总存储容量的一小部分,但它们对性能都有极高的要求。
第二步:准确的估计DR存储系统的规模
当IT专业人员在估计灾难恢复站点的存储系统时,通常做出这样的假设:达到与主系统相同或者类似的容量和性能。但大多数情况下,并非如此。在一个真实的灾难恢复场景,只有任务关键应用需要快速恢复,并且这些应用只需要访问最近的数据副本。
如果IT团队已经做了前端评估工作,就能据此降低灾难恢复成本。因为用户只需要立即访问他们经常使用的文档——一般在两周以内——DR站点的存储容量可以小一点。这就是为什么在数据中心里100TB的容量到了DR站点10TB就足够支持的原因。
DR系统要提供一定的性能给这些应用。如果主存储中心为这些应用配置了闪存,那么DR站点也至少需要一个缓存层。需要强调的是,即使那些任务关键服务器对性能都有要求,但它们也只代表数据中心工作负载的一小部分,因此DR系统的性能要求也不必要与主存储一致。
第三步:依靠虚拟化
即使主数据中心并没有完全虚拟化,DR站点也应该虚拟化。虚拟化将服务器成本降至最低并且还能通过支持数据重删和压缩降低容量需求。除此之外,虚拟化让DR测试随心所欲。IT规划者们能够创建虚拟的隔离测试网络,在不影响生产的情况下进行应用副本的DR演练。
第四步:灾难恢复即服务
DRaaS将虚拟化DR的概念带到了极致。云备份厂商争相追捧DRaaS,与单纯备份到供应商的云中不同,DRaaS还支持企业在云中实例化虚拟机、借助其计算能力快速恢复。DRaaS能够帮助企业节约下创建DR站点以及由此带来的服务器、存储和人员成本。
对于中小企业这种缺乏二级存储但有人员支撑的企业类型,DRaaS在灾难恢复的成本节约和可操作方面很有吸引力。而对于储备二级站点的数据中心,在云上存储备份也是不切实际的。也就是说,企业可以从DRaaS供应商那里偷师并且实施到自己的方案中。
第五步:实施你自己的DRaaS
DRaaS依赖二级数据中心不仅仅是存储备份数据,还要交付满足在数据中心故障事件中支撑应用的计算能力。企业可以建立自己的DRaaS服务,并且有更好的成本控制。
与其将所有备份放到云上并据存储计费,企业可以将其最关键任务数据复制到像Amazon、google或Microsoft这样的云供应商。有软件能够提供这样的功能。一些应用也会从企业虚拟镜像转换成虚拟云镜像,这样应用就能在公有云中自如运行。这将有助于节约成本。
DR的期待不断加大。用户需要IT人员快速、无缝并经济的做任意恢复。清楚的了解你的应用和数据是降低DR成本极为关键的第一步,而遵从上述步骤将最小化你的资本支出。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。