爱沙尼亚存储公司Leil Storage成功获得150万欧元(约173万美元)种子轮融资,用于开发基于休眠叠瓦式磁记录(SMR)硬盘驱动器的海量数据集存储系统。
Leil去年提出的这项技术可用于本地数据归档,相比磁带库具有更快的访问速度,因为启动硬盘比读取磁带耗时更短。随着人工智能的兴起,该公司现在表示,客户可以更经济高效地存储海量数据集,与始终在线的硬盘驱动器相比,能耗也更低。
谷歌、亚马逊云服务和Meta等超大规模云服务提供商,以及Dropbox,都在使用SMR硬盘,其容量比标准传统(CMR)硬盘驱动器高约20%。这些公司开发了自己的软件来克服SMR的区域重写特性,该特性源于部分重叠的写入磁道。这会减慢对先前写入SMR硬盘磁道的写入访问速度,因为必须读取整个磁道区域,添加新数据,然后重写整个区域,而不是像CMR硬盘那样只重写单个磁道的某个部分。
Leil表示,其专用软件可以补偿区域重写问题,使企业能够使用SMR硬盘集群。
Leil联合创始人兼首席执行官亚历山大·拉格尔表示:"人工智能和科学领域的下一波创新浪潮正在承受其自身数据重量和成本的压力。我们创立Leil就是为了改变这种状况。我们正在让每个企业都能实现超大规模存储经济效益,大幅节约成本,减少环境影响,并确保关键数据仍在客户控制之下。我们的硬盘原生方法为数据密集型未来构建了高性能、更具弹性和效率的基础。"
这项名为无限冷存储引擎(ICE)的技术基于Leil的SaunaFS分布式并行POSIX文件系统,该系统支持主机管理SMR硬盘(HM-SMR)、硬盘管理SMR和CMR硬盘,允许在同一集群中混合使用,实现渐进式采用。ICE专注于SMR硬盘,在SaunaFS分布式文件系统中集成了先进的数据放置、电源管理(活跃、空闲、休眠)和擦除编码。这是SAAFS的开源演进版本,用C++编写,采用受谷歌文件系统启发的架构。
该软件将频繁访问的内容保存在活跃硬盘上,同时将较旧数据移动到保持休眠状态的硬盘上。它需要SATA硬盘,因为使用SATA Pin 3禁用信号来关闭硬盘电源。当需要这些数据时,系统会启动相关硬盘(需要几秒钟时间)并访问内容。这类似于旧的大规模空闲硬盘阵列(MAID)概念。
ICE在配置为简单硬盘堆叠(JBOD)的商用服务器集群上运行,例如西部数据Data60和Data102 JBOD,通常包含8台服务器,每台容纳60-102块硬盘(例如28TB或32TB西部数据HM-SMR型号)。数据以64MB块存储,包含64KB区块,通过跨服务器的擦除编码(例如6+2方案:6个数据片段+2个奇偶校验片段)进行保护,确保最多两台服务器故障时仍能恢复数据。
SaunaFS将元数据存储在NVMe/SSD上以提高速度,大容量数据则放置在SMR/CMR硬盘上。配置文件定义逻辑写入组,跨服务器行排列,将数据操作隔离到硬盘子集。它支持多组分层(例如热/温/冷数据),兼容SMR的基于区域写入和CMR的随机访问。
当SaunaFS添加服务器(和JBOD)或从故障中恢复时,它选择数据的"对角"切片(来自每个现有写入组的一个硬盘的数据量)并将其迁移到新服务器。它逐步释放空间,无需完整集群启动或数据重新洗牌即可启用新的写入组。写入分组可防止"唤醒风暴"。
Leil声称其技术"管理数据在数千个硬盘上的写入、移动和恢复方式,同时保持更高密度和更低功耗。关键是,它根据访问模式对内容进行分类,将非活跃文件分组,并关闭相应硬盘的电源,直到再次需要数据。根据使用情况,这可以在不影响可用性的情况下节省高达70%的能源。"
这意味着它应该只适用于需要多PB级数据集存储的企业,而不是"每个企业"。
Leil的软件提供针对客户需求定制的版本,开源变体提供核心功能。与始终在线的等效容量硬盘存储相比,其节能功能具有强大的绿色环保优势。
种子资金将加速Leil的市场推广策略,扩展产品路线图并壮大商业团队。公司正在规划基于AI/启发式的"智能放置"功能用于自适应分层、更广泛的开源SAAFS集成以及写入分组的社区采用。
我们可以预见未来的发展将关注向GPU更快地传输数据。
备注:Leil代表L(大规模)、E(节能)、I(无限)和L(本地)。
Q&A
Q1:什么是叠瓦式磁记录SMR硬盘?它有什么优缺点?
A:SMR硬盘是一种磁道部分重叠的硬盘技术,容量比传统CMR硬盘高约20%,但写入时需要重写整个区域,速度较慢。谷歌、亚马逊等大公司都在使用这种技术来提高存储密度。
Q2:Leil的无限冷存储引擎ICE如何节省能源?
A:ICE技术将频繁访问的数据保存在活跃硬盘上,将较旧数据移动到休眠状态的硬盘上。当需要数据时才启动相关硬盘,根据使用情况可节省高达70%的能源,同时不影响数据可用性。
Q3:这项技术适合哪些企业使用?
A:主要适合需要多PB级海量数据集存储的企业,特别是在人工智能和科学研究领域。它基于商用服务器集群运行,通常包含8台服务器,每台容纳60-102块大容量硬盘。
好文章,需要你的鼓励
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
这项由圣母大学和IBM研究院联合开展的研究,开发出了名为DeepEvolve的AI科学助手系统,能够像人类科学家一样进行深度文献研究并将创新想法转化为可执行的算法程序。该系统突破了传统AI要么只能改进算法但缺乏创新、要么只能提出想法但无法实现的局限,在化学、生物学、数学等九个科学领域的测试中都实现了显著的算法性能提升,为AI辅助科学发现开辟了新的道路。
人工智能初创公司aiOla推出基于流匹配训练技术的语音AI模型Drax,挑战OpenAI和阿里巴巴等巨头。该模型重新定义语音算法训练方式,能在嘈杂环境中准确识别语音,兼顾速度与准确性。相比OpenAI的Whisper和阿里巴巴Qwen2,Drax采用并行流处理技术,速度提升32倍,词错误率仅7.4%。该模型已在GitHub开源,提供三种规模版本。
卡内基梅隆大学研究团队通过3331次大规模实验,系统揭示了代码训练如何提升AI推理能力。研究发现,代码的结构特性比语义内容更重要,适当的抽象形式(如伪代码)可以达到与原始代码相同的效果。不同编程语言产生差异化影响:低抽象语言有利于数学推理,Python更适合自然语言任务。这些发现为AI训练数据的科学化设计提供了重要指导。