在房价的一片暴涨声中,北上广深等地已经可以用寸土寸金来形容。在此形势下,节约机房空间不再是可有可无的数据中心设计指标,而是事关真金白银的重要建设需求,甚至会直接影响企业运营效益。但是,随着企业数据资产指数级暴涨,存储设备数量也在快速增长,要节约机房空间,一个必备的措施就是通过数据压缩提升存储空间利用率。

数据压缩套路深 选择需谨慎
顾名思义,数据压缩是指在不丢失信息的前提下,按照一定的算法对数据进行重新组织,减少数据的冗余和存储空间占用,进而提高数据传输、存储和处理的效率。
数据压缩在存储圈里并不新鲜,业内很多厂商都宣称自家的数据存储系统拥有这一功能,不过实现方法和应用效果就相去甚远了。高超的数据压缩技术不但能够节省大量的空间占用,还能够成倍的提升传输效率。相反,如果选择不慎,很可能会陷入"食之无用,弃之可惜"的"鸡肋"境地,甚至可能会严重影响业务性能。
正所谓"压缩套路深,选择需谨慎",此次我们通过传统压缩技术和浪潮智能存储G2平台的智能压缩技术的对比,让大家感受创新技术可以为数据压缩带来多大的改变,为用户评定存储系统的压缩功能提供参考。
第一回合:实时压缩 PK 非实时压缩
吞啮资源难使用 传统压缩已落伍
传统的数据压缩技术为了降低数据压缩对阵列性能的影响,往往采用后处理压缩方式,即先写入原始数据,在后台根据策略触发对写入数据的压缩。比如,触发的条件可以设定为"数据变化量达到10%或10GB的增量",但这种间断的处理方式导致需要的存储空间更大。此外,后台压缩处理也会占用存储控制器处理器与缓存资源,对性能的影响较大并且持续时间较长。
"后压缩的压缩方式占用较多CPU处理资源,弊端日益突出",浪潮存储产品经理杨涛表示,"在过去,后压缩还能安排在夜晚进行,但现在互联网、大数据、云计算等应用一般都需要24小时不间断运行,基本没有后压缩操作的时间,非实时的后压缩成了一个中看不中用的花瓶"。
实时无损压缩 浪潮G2效率高
浪潮智能存储G2平台提供的在线实时压缩,是一种基于卷的硬件压缩技术,可以对写入的数据进行实时压缩。G2平台的存储系统集成了随机访问压缩引擎(RACE),可以兼容传统压缩卷的各项特性。
随机访问压缩引擎(RACE)采用无损数据压缩算法,能够动态地对数据进行在线实时压缩,即在数据写入磁盘之前就已经完成了压缩。并且,数据写到存储系统的整个压缩过程是透明进行的,主机端感受不到这个压缩过程的存在。
第二回合:固定长度压缩块 PK 随机长度压缩块
传统文件压缩一般使用诸如zip、gzip等压缩工具,将数据压缩成可变长度的压缩块,然后将这些压缩块顺序写入固定块大小的存储中,这些固定块的压缩和提取都是各自独立的。这种机制存在很大的问题,比如当压缩块1中有数据需要更新,其所在的整个固定块都会被选中,提取和重压缩带来了繁重的I/O压力。所以,传统压缩方式的使用性能较低,不能实现真正的数据随机访问。

传统压缩采用随机长度压缩块
传统的压缩算法受限于随机长度压缩技术的机制,如果能够实现只选中有数据变化的压缩块来提取和重压缩,那么需要压缩的比率和负担都会减少。浪潮智能存储G2平台借助随机访问压缩引擎将原数据分为可变长度的数据块,每个数据块再被独立压缩成固定长度的压缩块,最后将这些压缩块存放在固定大小的存储数据块中。这样就可以做到在数据有变化时,以及进行检索等操作时,只选中相应的压缩块,而不用选中整个固定存储块,极大提升了存取和访问效率。
值得一提的是,浪潮存储系统固定长度压缩块技术提供了一种基于时间压缩的技术。当主机向压缩引擎写入数据时,这些数据就开始被压缩,同时向一个大小固定的组块中填充,这个组块叫做可压缩块。当同一时间写入多路数据流时,所有数据可被压缩后集中存储到这个单一的可压缩块中,对应的循环检索表也被存储在这个块中。因为这些写入的数据流大部分都是来源于同一个应用程序,并且数据类型也相同,压缩算法可以方便地检测更多的重复数据。
由于时间压缩技术让压缩的数据均匀地写到一个可压缩块中,因此可以拥有更高的压缩比率,减少检索表数量。这使得浪潮存储系统的压缩技术在压缩比率、读写性能都有大幅的提升,也优化了检索表的数量。该功能配合专用的硬件压缩加速卡,可以让用户的存储空间节约2倍以上,大大提升各项业务性能,有效减低TCO。
浪潮G2提供四大存储应用场景
由此可见,压缩技术对存储系统的存取、访问性能以及占用空间都会带来很大的影响。用户在选择存储系统时,一定要擦亮眼睛,比如要看存储系统能不能做到实时压缩、能不能做到真正的数据随机读取等。不仅如此,同一存储系统在不同的场景也会有不同的压缩效果,比如,数据中心四大存储场景:通用、数据库、虚拟化和日志,在数据压缩上就有差异,但浪潮G2智能存储都能轻松应对。

浪潮智能存储G2平台
场景一:通用压缩卷
大多数的数据类型都是可以高度压缩的,如目录索引数据,设计数据,石油与天然气、地质、地震数据。在存放这些类型的数据时,浪潮G2智能存储压缩功能可在线进行,降低整体使用空间。更多的空间可以提供给其他应用。压缩卷可以存放多个类型的数据,对于多类型数据的压缩比例,实际经验压缩值为50%~60%。
场景二:数据库应用
数据库的数据以表空间文件为主(如DB2、Oracle、Microsoft SQLServer数据库),对于这类文件的压缩需求,G2平台可以实现50%~80%的高压缩比,并可进行实时压缩。
场景三:虚拟化应用
虚拟化已经广泛的应用在各种业务中,并且在不断的扩充应用领域。这就需要有更多的存储空间去支撑虚拟化应用,以保证能够存储更多的虚拟服务器镜像数据和备份数据。使用压缩功能可以减少虚拟化应用对存储空间的需求。目前,G2平台已经可以支持VMware、Hyper-V等主流的虚拟化软件,并实现45%~75%的压缩比。
场景四:日志服务器
对于任何公司和部门来说,日志文件都是非常关键的数据,而且数量往往非常庞大,这就需要通过数据压缩来降低存储空间的占用,对于此类数据,G2平台可以实现高达90%的压缩比。此外,G2平台还具有透明的压缩功能,不会改变系统数据的属性,能够很好地满足企业对性能、可靠性以及可扩展性的要求。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。