在房价的一片暴涨声中,北上广深等地已经可以用寸土寸金来形容。在此形势下,节约机房空间不再是可有可无的数据中心设计指标,而是事关真金白银的重要建设需求,甚至会直接影响企业运营效益。但是,随着企业数据资产指数级暴涨,存储设备数量也在快速增长,要节约机房空间,一个必备的措施就是通过数据压缩提升存储空间利用率。

数据压缩套路深 选择需谨慎
顾名思义,数据压缩是指在不丢失信息的前提下,按照一定的算法对数据进行重新组织,减少数据的冗余和存储空间占用,进而提高数据传输、存储和处理的效率。
数据压缩在存储圈里并不新鲜,业内很多厂商都宣称自家的数据存储系统拥有这一功能,不过实现方法和应用效果就相去甚远了。高超的数据压缩技术不但能够节省大量的空间占用,还能够成倍的提升传输效率。相反,如果选择不慎,很可能会陷入"食之无用,弃之可惜"的"鸡肋"境地,甚至可能会严重影响业务性能。
正所谓"压缩套路深,选择需谨慎",此次我们通过传统压缩技术和浪潮智能存储G2平台的智能压缩技术的对比,让大家感受创新技术可以为数据压缩带来多大的改变,为用户评定存储系统的压缩功能提供参考。
第一回合:实时压缩 PK 非实时压缩
吞啮资源难使用 传统压缩已落伍
传统的数据压缩技术为了降低数据压缩对阵列性能的影响,往往采用后处理压缩方式,即先写入原始数据,在后台根据策略触发对写入数据的压缩。比如,触发的条件可以设定为"数据变化量达到10%或10GB的增量",但这种间断的处理方式导致需要的存储空间更大。此外,后台压缩处理也会占用存储控制器处理器与缓存资源,对性能的影响较大并且持续时间较长。
"后压缩的压缩方式占用较多CPU处理资源,弊端日益突出",浪潮存储产品经理杨涛表示,"在过去,后压缩还能安排在夜晚进行,但现在互联网、大数据、云计算等应用一般都需要24小时不间断运行,基本没有后压缩操作的时间,非实时的后压缩成了一个中看不中用的花瓶"。
实时无损压缩 浪潮G2效率高
浪潮智能存储G2平台提供的在线实时压缩,是一种基于卷的硬件压缩技术,可以对写入的数据进行实时压缩。G2平台的存储系统集成了随机访问压缩引擎(RACE),可以兼容传统压缩卷的各项特性。
随机访问压缩引擎(RACE)采用无损数据压缩算法,能够动态地对数据进行在线实时压缩,即在数据写入磁盘之前就已经完成了压缩。并且,数据写到存储系统的整个压缩过程是透明进行的,主机端感受不到这个压缩过程的存在。
第二回合:固定长度压缩块 PK 随机长度压缩块
传统文件压缩一般使用诸如zip、gzip等压缩工具,将数据压缩成可变长度的压缩块,然后将这些压缩块顺序写入固定块大小的存储中,这些固定块的压缩和提取都是各自独立的。这种机制存在很大的问题,比如当压缩块1中有数据需要更新,其所在的整个固定块都会被选中,提取和重压缩带来了繁重的I/O压力。所以,传统压缩方式的使用性能较低,不能实现真正的数据随机访问。

传统压缩采用随机长度压缩块
传统的压缩算法受限于随机长度压缩技术的机制,如果能够实现只选中有数据变化的压缩块来提取和重压缩,那么需要压缩的比率和负担都会减少。浪潮智能存储G2平台借助随机访问压缩引擎将原数据分为可变长度的数据块,每个数据块再被独立压缩成固定长度的压缩块,最后将这些压缩块存放在固定大小的存储数据块中。这样就可以做到在数据有变化时,以及进行检索等操作时,只选中相应的压缩块,而不用选中整个固定存储块,极大提升了存取和访问效率。
值得一提的是,浪潮存储系统固定长度压缩块技术提供了一种基于时间压缩的技术。当主机向压缩引擎写入数据时,这些数据就开始被压缩,同时向一个大小固定的组块中填充,这个组块叫做可压缩块。当同一时间写入多路数据流时,所有数据可被压缩后集中存储到这个单一的可压缩块中,对应的循环检索表也被存储在这个块中。因为这些写入的数据流大部分都是来源于同一个应用程序,并且数据类型也相同,压缩算法可以方便地检测更多的重复数据。
由于时间压缩技术让压缩的数据均匀地写到一个可压缩块中,因此可以拥有更高的压缩比率,减少检索表数量。这使得浪潮存储系统的压缩技术在压缩比率、读写性能都有大幅的提升,也优化了检索表的数量。该功能配合专用的硬件压缩加速卡,可以让用户的存储空间节约2倍以上,大大提升各项业务性能,有效减低TCO。
浪潮G2提供四大存储应用场景
由此可见,压缩技术对存储系统的存取、访问性能以及占用空间都会带来很大的影响。用户在选择存储系统时,一定要擦亮眼睛,比如要看存储系统能不能做到实时压缩、能不能做到真正的数据随机读取等。不仅如此,同一存储系统在不同的场景也会有不同的压缩效果,比如,数据中心四大存储场景:通用、数据库、虚拟化和日志,在数据压缩上就有差异,但浪潮G2智能存储都能轻松应对。

浪潮智能存储G2平台
场景一:通用压缩卷
大多数的数据类型都是可以高度压缩的,如目录索引数据,设计数据,石油与天然气、地质、地震数据。在存放这些类型的数据时,浪潮G2智能存储压缩功能可在线进行,降低整体使用空间。更多的空间可以提供给其他应用。压缩卷可以存放多个类型的数据,对于多类型数据的压缩比例,实际经验压缩值为50%~60%。
场景二:数据库应用
数据库的数据以表空间文件为主(如DB2、Oracle、Microsoft SQLServer数据库),对于这类文件的压缩需求,G2平台可以实现50%~80%的高压缩比,并可进行实时压缩。
场景三:虚拟化应用
虚拟化已经广泛的应用在各种业务中,并且在不断的扩充应用领域。这就需要有更多的存储空间去支撑虚拟化应用,以保证能够存储更多的虚拟服务器镜像数据和备份数据。使用压缩功能可以减少虚拟化应用对存储空间的需求。目前,G2平台已经可以支持VMware、Hyper-V等主流的虚拟化软件,并实现45%~75%的压缩比。
场景四:日志服务器
对于任何公司和部门来说,日志文件都是非常关键的数据,而且数量往往非常庞大,这就需要通过数据压缩来降低存储空间的占用,对于此类数据,G2平台可以实现高达90%的压缩比。此外,G2平台还具有透明的压缩功能,不会改变系统数据的属性,能够很好地满足企业对性能、可靠性以及可扩展性的要求。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。