2016年成立于纽约的VAST Data公司,日前宣布推出通用存储平台 (Universal Storage Platform),并表示公司已将数十千兆字节(GB)的存储出售给信息技术公司以及生物和医疗技术公司。VAST Data已获得8000万美元融资,公司的目标是希望帮助用户在最初归档应用程序时,无需再在多层级存储(特别是硬盘驱动器)环境和全固态解决方案两者中做出权衡取舍。令人非常感兴趣的是,VAST Data的通用存储平台 (Universal Storage Platform) 也是首个应用了3D XPoint存储技术的平台之一,并将存储系统的成本较传统企业闪存降低了80%。
VAST的通用存储平台在其存储前端使用英特尔傲腾(3D XPoint) NVMe SSD,可实现每秒万亿字节(TB/s)的写入速度和每秒数百万次的读写速度 (IOPs),并提供每单元四比特 (QLC)的3D NAND,进行艾字节规模的文件系统(NFS)和对象(S3)存储。VAST Data表示,使用NVMe QLC闪存和NVMe over Fabric (NVMe-oF) 不仅可以显著提高性能,还能将存储系统的成本降至可以媲美硬盘成本的水平。他们的目标是通过这种方法消除所有闪存、NAS和云对象以及文档存储,并将其集成到VAST的通用存储平台之上。
VAST存储系统组件(图片来自VAST产品展示)
该公司表示,他们在客户端网络中提供了一个跨文件和对象的全局命名空间,通过数据中心规模转换的NVMe以太网结构访问3D XPoint内存(存储级内存,下图中简称SCM)。SCM缓存层下面的QLC闪存结合有趣的软件管理功能,则可以优化性能和存储利用率。除了全局命名空间之外,他们还提供数据保护和全局压缩。
采用傲腾写缓冲器的VAST全局命名空间QLC闪存(图片来自VAST产品展示)
VAST宣称,“服务器在 VAST架构中是松散耦合的,因为不需要相互协调输入和输出,它们的数量几乎可扩展到无穷大。它们也不受任何集群式串扰的阻碍,那些串扰通常会给无共享(Shared-nothing)架构带来挑战。此外,VAST服务器可以像集装箱一样嵌入到应用服务器中,为每台主机提供NVMe over Fabrics (NVMeoF) 架构的性能。”
该公司可通过减少闪存上的写入来使用QLC闪存固态硬盘,特别是通过缓冲傲腾内存的写入,来实现写入放大,并使用应用感知数据放置在闪存上实现顺序写入。他们还尽可能将写入与擦除操作结合起来,写入完整的QLC擦除块。
VAST Data公司的数据存储模型基于几种有趣的方法来减少所需的容量包括自描述数据结构,发现并利用数据相似性模式在“全局命名空间中”进行数据压缩和重复数据删除,“其所拆分的数据细粒度比当前重复数据删除技术要小4000到128000倍。” VAST Data还宣称其重建速度比硬盘要快若干倍。他们还预测了将数据放置于闪存中的数据使用情况。使用本地可解码压缩算法在1毫秒内即可完成读取操作。
VAST展示了一种全局命名空间存储系统,该系统利用基于傲腾的缓冲器和数据管理功能来管理QLC闪存系统的损耗,该闪存系统的耐久性及保修期为10年。如今,诸如傲腾这样的新兴持久性内存正在对存储架构产生巨大影响。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。