自动驾驶、智能制造、AI……新技术带来数据量的爆炸式增长,这也导致企业的存储成本快速上升。
以自动驾驶为例,L3级自动驾驶项目需要存储50到120PB的传感器数据,这些数据要求在短时间内分析完成,完整测试产生的数百PB数据需要存储30年以上。这对训练效率和海量存储的成本优化提出了更高的要求。
分布式存储,因其性能和扩展性更高、TCO成本更优,成为越来越多企业的选择。作为一款企业级分布式存储产品,杉岩MOS海量对象存储(以下简称杉岩MOS)针对成本优化,除了常规的纠删码、横纵双向扩容外,还有哪些特色功能特性?来一探究竟!
常规特性解读
1. 纠删码和亚节点纠删,节省存储空间
纠删码是提高存储系统数据可靠性的一项编码技术。杉岩MOS将纠删码技术应用到数据冗余处理中。写入的对象被拆分为 K 个数据块,然后编码生成 M 个校验块,总共 K+M 份数据通过DHT 算法分别存入不同硬盘中。当系统出现故障,丢失了某些块时,只要这个对象丢失的块数目不超过 M,就可通过数据恢复算法,将丢失的数据块从剩余的块中计算出来。在这种方式下,空间的利用率约为 K/(K+M),数据的可靠性由 M 值的大小决定,M 越大可靠性越高。
例如“3+2”EC 配置下一个对象写入时,对象会生成 5 个块,每个块均存入不同的硬盘,如下图所示:
图 1 “3+2”EC 策略示意图
杉岩MOS提供了灵活的EC配置方式以满足不同应用场景。杉岩MOS支持EC22+2的存储策略,相较于HDFS的三副本策略,采用EC22+2存储策略的存储空间利用率提升了175%。
默认的纠删码是按照节点来分配数据的,例如EC4+2需要配置6个节点,但亚节点纠删可按照硬盘来分配数据,例如EC4+2:1,则是把3个节点当6个节点用,每个节点选择2块硬盘,整个集群选择6块不同的硬盘来存放4+2总计6个分片数据。如下图所示:
图2 “4+2”EC 亚节点纠删策略示意图
因此,EC4+2:1相比EC2+1,虽然能容忍节点故障数量仍然是1个,但它可以允许2个节点分别有1块硬盘故障(总计2块硬盘故障)而数据不丢失。而实际情况下,硬盘故障的概率是远远低于整个节点故障的,所以EC4+2:1还是非常可靠的,在空间利用率上也远高于三副本。
配置建议:
在满足性能及可靠性要求下配置适当的EC策略。
在满足性能要求下,节点数量少于EC块数量,可以配置亚节点纠删。
2. 无感知横纵双向扩容,降低人力时间成本
杉岩MOS不仅支持节点的横向扩展,还可支持纵向扩展。当后期业务容量不足时,可在线扩容节点磁盘或者节点。杉岩MOS基于多故障域的扩容,配合存储策略,向应用屏蔽了底层存储的变更细节,能够在业务无感知的情况下,实现业务的扩容,避免了传统存储变更时,需要业务系统同时变更的情况,大大减少了运维人员及业务人员的工作量,降低人力时间成本。
配置建议:
将新扩容的节点/磁盘独立成一个故障域,避免数据的迁移,建议选择当前集群业务较少或无业务时间段操作,以防影响业务性能。
结合生命周期转移技术,将某个故障域的数据自动转移到另一个故障域中,实现数据的分层存储。
杉岩MOS特色特性解读
3. 重删及压缩,节省存储空间及带宽
随着企业业务的不断增长,需要存储的数据越来越多。与此同时,企业可能面临如下问题:
历史数据中可能存在大量的冗余数据。冗余数据的增长消耗了非必要的存储资源,导致存储资源浪费,存储成本也随之增加。
存储容量的增加带来了维护管理的复杂,增加了运维成本及其他成本。
杉岩MOS支持数据重删、压缩(包括对象压缩及数据的传输压缩)两种功能。重删功能通过删除杉岩MOS中的冗余数据块,减少冗余数据在站点内占用的物理存储容量,从而满足日益增长的数据存储需求。压缩功能可在数据存储时对数据桶进行压缩,以及在多站点的场景下,将数据压缩后再传输,节省存储容量及带宽。
配置建议:
在文件共享访问等场景,建议开启重删和压缩。
在备份场景下,推荐启用数据压缩功能。
多站点同步场景下,建议开启数据传输压缩。
注意事项:重删和压缩过程会占用CPU资源,所以重删压缩的数据越多,对系统性能的影响越大。
4. 数据分级存储,降低归档成本
蓝光存储为客户提供低成本、高可靠、长周期、大容量的冷数据存储服务,适用于海量、访问频次低的非结构化数据的存档和管理。
数据的访问频率通常会随着时间的推移由热转冷,庞大的冷数据鲜少被再次调用,若继续存在对象存储中,成本非常高。杉岩MOS支持对数据进行全生命周期管理,支持冷热数据介质分层迁移。基于成本考虑,可将冷数据自动归档至公有云或蓝光存储,实现大容量、低成本、长期保存数据。
配置建议:
重要数据建议备份至公有云。
结合生命周期策略,将冷数据归档至公有云或蓝光存储中。
5. 生命周期清除,降低存储成本
杉岩MOS支持数据生命周期管理,用户可通过设定数据生命周期管理策略,定期自动清理无用数据,释放存储空间。
配置建议:
针对无用数据,建议设置生命周期过期删除策略,定期删除无用数据。
统一设置桶的生命周期执行时间,可以将执行时间设置在数据流量较低的时间段,降低生命周期执行对业务的影响。
6. 传统SAN纳管,降低采购成本
杉岩MOS支持通过将客户旧有的IP/FC-SAN设备挂载到MOS存储节点,通过运维界面一键配置,将SAN设备虚拟成MOS的存储池,将其云化为对象存储设备,保护客户历史投资,降低采购成本。
图3 将SAN设备虚拟成MOS的存储池,利旧云化
7. NAS/S3异构技术,降低管理成本
在企业用户从使用传统的文件存储到使用对象存储的应用改造过程中,主要有以下几个步骤:
业务系统代码改造——数据迁移——数据校验——业务系统停机升级——增量数据迁移与校验——正式上线。
上述过程中,工作量最大的往往不是业务系统的代码改造,而在于数据的迁移与校验。在数据迁移的过程中,涉及到数据的传输,文件数量及内容的校验,每一项工作都会消耗大量的时间与人力,为业务的割接上线带来了许多阻力。
NAS/S3异构技术,实际上就是对象存储系统对原有NAS/S3进行纳管,从而能够通过对象存储接口(S3)访问到NAS/S3中的数据,而无需数据迁移。在业务上线的过程中,省去了数据迁移与校验的过程,大大缩短了业务上线的时间窗口,实现业务系统的快速切换与上线。
在经济趋缓的背景下,如何节省企业存储成本,已经成为优化企业IT开支的重要环节。杉岩MOS凭借优异的产品性能和功能特性,例如重删及压缩、数据分级存储、生命周期清除、传统NAS纳管和NAS/S3异构技术,在帮助企业提高存储空间利用率、保护历史投资、节省存储空间和采购成本等方面有着独特的价值优势。
深耕分布式存储科技创新,杉岩数据帮助企业夯实数据底座、挖掘数据价值、释放数据潜能,助力企业“降本增效”,从容应对大数据挑战!
好文章,需要你的鼓励
OpenAI 的 ChatGPT 爬虫存在安全漏洞,可被利用对任意网站发起分布式拒绝服务攻击。攻击者只需向 ChatGPT API 发送一个包含大量重复 URL 的请求,就能触发爬虫对目标网站进行大量访问。此外,该漏洞还可能被用于绕过限制,让爬虫回答查询。这些问题凸显了 AI 系统在安全性方面的潜在风险。
三星即将发布的Galaxy S25 Ultra旗舰手机将带来多项升级,尤其是相机方面。据泄露信息显示,新机将支持高分辨率视频拍摄、超广角微距模式、AI音频擦除等功能,并集成Google Gemini AI助手。这些升级将大幅提升用户体验,令人期待。
本周科技圈风云激荡:TikTok 面临美国最高法院裁决,或将被迫停运;Meta 在美国终止事实核查,引发争议;ChatGPT 推出全新任务功能,为用户提供智能日程管理;Beat Saber 在 Quest 平台销量突破千万,AI 电影制作技术展现惊人潜力。
AI正重塑人类生活的方方面面,从商业到国防再到社会政策。AI计算能力与全球影响力息息相关。各国和企业纷纷投资巨额资金建设数据中心,以增强AI实力。预计到2030年AI市场规模将达1.81万亿美元,掌握最佳数据和计算平台的国家将占据优势地位。AI计算力的竞争已成为21世纪全球力量的决定性较量。