年末将至,各大行业市场逐步进行盘点期。对于企业级存储行业来说,2017年是充满神奇色彩的一年,也是丰收的一年。这一年,业内知名企业东芝出售旗下芯片业务、西部数据收购初创公司Tegile、Dell EMC大力投入全闪存存储、HPE收购超融合厂商SimpliVity、NetApp推出基于SolidFire的超融合系统……一系列事件着实让存储圈热门一番。
展望2018年,企业产生的数据趋势并没有放缓迹象,大数据、物联网和分析市场的崛起持续促使数据继续增长,而这一激增也推动了其底层基础设施的发展。
事实上,数据存储技术的快速增长也是IT基础设施变革的最大因素,根据Interop ITX和InformationWeek 2018基础设施的研究证明,有50%的受访者认为如今企业对数据存储的需求已经远远超过了整合云服务的需求。
ESG高级分析师Scott Sinclair在接受采访时表示,目前数据已接近临界点,随着我们进一步步入数据经济,在未来一年中,企业为了实现数据战略目标,将在数据中心投资更多存储硬件,在云中存储更多数据,并继续研究新兴存储技术。而在2018年,有五大热门关键词将继续领跑企业级存储市场。
全闪存
近几年,存储介质突飞猛进,高速、容量、性能也在快速提升,全闪存作为最热门的存储介质之一,在数据爆炸增长的今天变得尤为重要,同时也为存储架构和存储协议的发展带来了全新变革。
其实全闪存也并不是什么新出现的技术,业内戴尔EMC、IBM、NetApp、华为等厂商一直在做,只是之前因为成本的原因限制了全闪存的普及。随着全闪存技术的不断提升和价格的逐渐走低,这个市场有望进入快速增长期。据悉,在未来一年中,各大厂商会继续发力全闪存市场,在性能、IOPS等技术上继续优化,为用户提供更强大、更简单的解决方案,以加速数字化转型。
超融合
超融合(Hyper Converge Infrastructure,HCI)是近几来IT界广受关注的话题之一,也成为众多厂商主要发力的方向,市场竞争尤为激烈。据Interop ITX的研究证明,有65%的受访者表示他们正在使用、计划使用或寻求超融合基础设施,而20%表示他们并不感兴趣。
纵观如今的超融合市场,最早推广这个概念的是Nutanix,起步的核心技术是分布式存储,只是在部署架构上融入了创新元素,采用融合的形式,这种形式也进一步推动了分布式存储的市场落地。目前中国的超融合市场玩家众多,除了戴尔、EMC、华为、联想、Nutanix这些一线国际大厂之外,还有浪潮、曙光以及众多初创企业。不过,市场目前还是属于初期阶段,竞争还是比较激烈的。
软件定义存储
随着软件定义数据中心、软件定义网络、软件定义存储纷纷推出市场,"软件定义"技术已全面爆发。据IDC预测,2017年至2021年,全球软件定义存储市场年复合增长率将达到13.5%,2021年营收达到约162亿美元。
软件定义存储,顾名思义主要是通过借助软件实现虚拟化,配置和重复数据删除等功能,并通过自动化对存储网络加速,其主要意义是实现用户可扩展性和灵活性。
Hadoop/Spark
自大数据兴起以来,更强的计算机及更成熟的大数据平台工具使企业掌握挖掘数据价值的技巧。目前国内已经广泛应用于制造、金融、电信、医疗以及能源领域,这些领域每天都有数以亿计的数据产生,对于大数据资产的存储、挖掘、分析等流程都有一定的要求。
Hadoop是由Doug Cutting于2005年发起的项目,采用开源软件框架对超大数据集进行分布式存储技术及分布式处理。换句话说,设计这一产品的目的在于缩减处理大数据集的时间及成本。Spark是近年来新兴的一个分布式大数据处理引擎,采用了类Hadoop MapReduce的通用的并行计算框架,而不同于MapReduce的是输出和结果可以保存在内存中,性能更好,因此能更好地适用于数据挖掘与机器学习等应用,一度被认为有望取代Hadoop。其实,这两者协作要大于竞争。
云存储
随着信息技术的飞速发展,云技术日趋成熟,通过云技术将信息资源进行存储共享被越来越多现代企业广泛应用,包括备份和恢复、归档等。
追其根源,其实是Dropbox公司首席执行官Drew Houston在2007年在忘记带USB存储设备且不知道放在哪里的时候,当时萌生了创建个人和小型企业云存储的想法,而如今,几乎每个人都寻求到了属于自己的云存储产品。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。