随着云计算应用渗透到人们工作、生活的方方面面,基于云计算、大数据的应用业务已经大规模的落地实施,作为数据存储中心的海量存储系统有力的支撑了云计算业务的应用和快速发展,海量存储系统平台也就成为云计算建设过程中必须规划、并首先要落地实施的工作。
相比于传统的应用环境,云计算环境中的应用业务数量更多、对存储系统性能的要求也存在着多样性的差异,这也就使得面向云计算、大数据的海量存储系统必须能够提供差异化的IO存储服务、以及持续的在线运行和高效、可靠的容错机制。其中海量数据的冗余保护机制是面向云计算的海量存储系统必须拥有的一个重要特征。
传统数据冗余保护不适于云计算时代的海量数据存储需求
传统的存储阵列所采取的数据冗余技术主要包括RAID技术、副本、快照、镜像、数据同步等方式,这些技术分别具备独有的特点,适用于不同的应用场景。
副本,是最简单的数据冗余策略,即统一存储系统中存储同一份数据的多个相同拷贝,只要这些拷贝中的一个有效,就能访问该数据。数据的副本越多、数据的可用性越高、可靠性越高,存储空间的利用率也就越低。
快照,是关于特定数据集的一个拷贝,该拷贝包括相应数据在某个时间点的映像。根据实现方式分为全拷贝快照、差分快照、增量快照。全拷贝快照数据可用性好,但是存储空间利用效率低;差分快照和增量快照存在着“空窗期”。
镜像,存储系统在接受数据写入时执行的是写入两份操作,即同一份数据分别写入两个存储设备中。根据写入的策略不同,分为同步镜像、异步镜像。数据镜像能够提供较好的数据冗余、也给存储带来两倍的压力,而且存储系统只有50%的空间利用率。
数据同步,是在主存储系统和备份存储系统之间实行的数据拷贝操作,数据同步的写入操作存在较大的时间延迟,较大的限制了其部署环境。
RAID技术,是把多块独立的存储磁盘按不同的方式组合起来形成一个存储磁盘组,提供比单个硬盘更高的存储性能和数据冗余保护。根据组成磁盘组的方式差异,设定了RAID级别。RAID技术提高了存储空间资源的利用率,只能提供单点存储系统的数据保护,不能满足大容量、分布式存储系统的应用。
RAID技术是在1GB驱动器出现前发明的,随着磁盘存储密度的提高,企业级存储磁盘容量已经达到2TB、3TB、4TB ,并出现6TB磁盘。采用高存储密度构建的RAID磁盘组,出现磁盘故障需要修正TB级别的数据时重建过程需要的时间较长,常常需要一天或者更长的时间;特别是在生产系统中,重建时间更长。在长时间重建大容量存储内容时,组成RAID组的第二个磁盘、第三个磁盘出现故障的可能性会大大增加;在重建过程中,一个磁盘故障明显加大了其它磁盘的访问负载,使得其它磁盘故障出现的概率急剧增加,较大的影响了存储系统的可用性。
针对传统数据冗余保护技术在大容量磁盘存储系统中所表现出的不足,以分布式、大规模、大容量磁盘存储为特点的海量存储系统中出现了一种更加高效的数据冗余技术——纠删码。
云时代的数据冗余保护机制——纠删码
纠删码起源于通信传输领域,目前逐渐出现在大规模存储系统中,特别是分布式存储环境,用于实现数据的冗余保护。纠删码冗余保护技术解决了传统冗余保护技术不适于分布式生产存储系统的问题。
纠删码技术基本思想是将一份数据划分为k块原始的数据,基于k块原始数据冗余计算获得m块冗余数据。对于这k+m块数据,其中任意的m块元素出错时,存储系统均可以通过重构算法恢复出原来的k块数据,如下图所示。
基于纠删码的方法与传统的镜像、副本技术相比,具有冗余度低、磁盘利用率高等优点。针对云计算、大数据业务对海量存储系统的多样性、大规模存储容量需求,浪潮推出了面向云计算、大数据的高性能、统一存储系统AS13000,AS13000海量存储系统所采用纠删码技术能够较好的适应云计算数据的分布式存储应用环境。
AS13000存储系统支持N+M格式的纠删码,级别有:N+1、N+2、N+3和N+4,在这种N+M数据模型中,N代表原始数据块数量,M代表在不发生数据丢失的前提下海量存储系统所允许发生的同时故障的数据块数目。如,N+2允许海量存储中丢失两个数据块、或者同时丢失两个节点。如下图。
浪潮AS13000海量存储系统支持文件多个副本冗余存储,提高了数据持续可用性,但也会花费三倍的存储资源和运营成本。针对云计算和大数据应用所要求的高效率的存储需求,浪潮AS13000海量存储系统融合了纠删码冗余保护机制,有效地实现了更低的运行成本,同时保证了海量数据的存储可靠性和持续可用性。
采用纠删码冗余保护技术的AS13000海量存储系统是面向云计算、大数据存储需求而推出的新一代海量存储系统,它整合了集群、网络、分布式文件系统、分布式SAN存储系统、分布式对象存储系统等高端存储技术,能够以统一的存储系统、统一的IO入口满足云计算、大数据业务对存储空间、数据访问服务的多样性存储需求,也将进一步推动云计算、大数据应用的落地进程。
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。