纵观当下的科技领域,用风起云涌、如火如荼不足为过。新技术的日益出现和普及,使得我们的工作、生活有了翻天覆地的变化。在过去几年中,大数据是谈及最多的话题,而如今,人工智能、物联网、机器学习等热门技术逐渐充斥各种大中小型活动中,产生的数据更是呈现出暴增趋势。

无可否认,新技术与云计算的融合将以人们无法想象的方式影响着商业和工业运营。但有一件事是显而易见的,就是会有更多的数据产生,尤其是非结构化数据。根据IDC研究显示,非结构化数据(29.8%)的增长速度超过了结构化数据(19.6%)。因此,企业需要高性能的存储解决方案来应对强劲的存储需求。
强劲的市场需求也催生了存储供应商的转变。细数近两年的市场,非结构化数据持续增长,有关存储技术最新进展的报道一直甚嚣尘上,其中包括非易失性存储器。随着新型接口和更现代化软件的不断普及,各大供应商也在积极创新,力图减少因过去20年内CPU发展所导致的数据中心IT基础架构不平衡。
据悉,这些全新的接口可以实现应用程度的低延迟和高性能数据存取,尤其是对于SQL/NoSQL数据、高性能计算工作负载和大数据应用。而对于大型的非结构化数据使用闪存技术意味着需要更高的性能。而不会出现横向扩展解决方案带来的延迟。另外,闪存的密集存储意味着比磁盘或磁带小得多的空间,这反过来又转化为电力、机架和冷却方面的节省。虽然闪存的成本仍然高于磁盘,但各个供应商们也在努力将价格变得更低。
不过,将非易性存储器用于非结构化文件数据目前仍然存在重大挑战,因此,需要一种能力与高性能闪存存储配合使用的现代二级存储解决方案。
• 挑战一:文件服务和数据管理
闪存供应商还没有建立企业需要管理其数据的文件服务。包括数据管理服务,如数据保护和备份,数据移动及数据检索等。
这意味着高性能闪存存储需要一个互补的辅助存储解决方案,企业需要管理大量数据的文件服务,可以让企业能够轻松地保护和备份数PB的数据,并且将数据从其所在的位置移动到所需位置,快速搜索并加以利用。
• 挑战二:传统解决方案无法跟上闪存
使用闪存进行非结构化文件数据存储需要兼容的辅助存储解决方案,但遗憾的是,传统备份和归档解决方案无法跟上闪存存储的速度。
一个补充高性能存储的现代存储解决方案需要能够处理并行数据流以尽可能快地读取数据。
• 挑战三:更高的价格点
尽管目前供应商们正在努力将闪存价格变得更便宜,但高性能的价格却在陡增。有了大量的数据,很难证明高性能闪存的成本。
但企业通常只需要将其数据的一部分存储在高性能主存储器中。从经济上来讲,对于经常访问的数据进行分层是非常便捷的,而针对长期保留的数据容量则是以低成本层次进行优化的,而不是为高性能而优化。
当将闪存的性能优势纳入更大策略的优化环境中时,高性能加上巨大的容量在整个数据管理系统中既经济可行又有价值。
小结
在非结构化数据爆炸的时代,高性能和大容量是目前所需的两个元素。随着各大供应商在存储方案上的不断推进,市场也逐渐出现使用现代化容量来补充高性能闪存,使企业能够在在真正需要的地方利用高性能存储能力,同时为其提供必要的文件服务,以更有效的管理所有数据。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。