光学归档存储新创公司Ewigbyte的技术和商业模式与Cerabyte既有相似之处又存在差异。我们采访了Ewigbyte联合创始人兼运营主管Ina von Haeften博士,深入了解这些差异。
Ewigbyte技术与Cerabyte有何不同
Cerabyte和Ewigbyte解决的是同一个长期归档问题,即空间问题,但在架构和物理设计上做出了不同选择。从宏观层面看,两者存在相似之处:都使用超短脉冲激光、空间光调制、薄玻璃基板和光学可读模式。这些是光子存储研究的共同基础。
差异始于记录理念和系统边界。在记录介质和写入过程方面,Cerabyte将数据写入沉积在玻璃上的陶瓷记录层,激光改变涂层而玻璃基板保持不变。
Ewigbyte刻意避免使用涂层,直接在未涂层玻璃上使用紫外波段超短脉冲写入,在玻璃本身中创建纳米级雕刻结构。因此数据物理嵌入在基板中,而非存储在超薄表面层。这种选择带来了本质上不可变的数据表示,设计用于极长保存期(世纪到千年级别),并实现更简单的报废回收,因为介质是纯玻璃而非复合材料。
在系统架构和商业模式方面,Cerabyte致力于向客户运营环境销售介质和读写硬件。Ewigbyte不计划将写入机器作为产品销售,而是自己运营硬件,提供长期写入、读取和存储的托管服务。
在优化优先级方面,Cerabyte强调密度路线图,目标达到几纳米级别。我们认为,对于光子存储,密度不是冷数据的主要限制因素,相反它总会对读写速度产生负面影响。由于玻璃一旦写入就无需电力、冷却或主动环境控制,容量可以通过自动化存储设施横向扩展,而非将密度推向极限。
因此我们优化的是大规模读写吞吐量,因为在AI驱动的数据增长中,摄入速度和检索吞吐量比物理密度更早成为限制因素。
技术演示现状如何
我们计划在明年年中演示首个可运行的机架系统。
Ewigbyte成立仅八个月,如何开发光子技术
区分公司年龄和基础工作成熟度很重要。
在创立Ewigbyte之前,我们的首席执行官Steffen Klewitz博士花费了大约两年半时间深入研究基于玻璃的光子存储,将技术从早期概念发展到工作原型,建立供应商关系,并探索系统级存储意义。因此Ewigbyte从更先进的技术蓝图起步,而非从零开始。
就今天的可演示性而言,我们谨慎界定主张范围。我们可以在样品级别演示核心读写原理:确定性数据模式直接写入玻璃,并使用基于显微镜的读出方式进行光学回读。这些演示已在Web Summit和IT Press Tour等活动中公开展示,并向合作伙伴、客户和投资者展示。重点是物理数据层的确定性编码和独立可读性。
尚未演示的是具有机器人处理和生产规模吞吐量的端到端自动化存储系统。这是当前工程阶段的重点。我们已选定系统集成商,确定了最小可行产品架构,并订购了下一级原型,目标是在下一阶段(目前计划在2026年9月)演示太字节级玻璃写入。
与此同时,我们与维尔纽斯大学、弗劳恩霍夫激光技术研究所和马克斯·普朗克研究所等研究和工程合作伙伴合作,并得到TUM Venture Labs和UnternehmerTUM生态系统的支持。
简而言之,该技术在物理数据层面已得到验证,系统规模的自动化和集成正在积极开发中。
你们是在整合现有技术吗
在组件层面,系统的许多元素都是成熟的工业化基础模块:超短脉冲激光源、运动和定位系统、机器人技术、工业视觉和控制电子设备。这是有意为之,因为它支持可制造性和长期可维护性。
困难不在于拥有这些组件,而在于使整个系统在长时间内以高吞吐量确定性地工作。两个领域特别复杂。
光学写入过程和光学集成:超短脉冲系统通常在红外波长下工作,根据所需的材料相互作用进行频率转换为绿光或紫外光。我们的方法依赖于定制的超短脉冲光学配置和严格控制的过程窗口,用于直接玻璃表面结构化。将其工程化以实现可重复、高吞吐量的"数据级"写入,在稳定性、对准、校准和质量控制方面带来了约束。这是我们知识产权的核心领域,我们正在申请与光学相关的多项专利。
系统级知识:归档基础设施的大部分防御能力在于系统集成:验证工作流、误差预算、冗余策略,以及数十年内对易碎介质的可靠机器人处理。其中很大一部分存在于工程知识和商业秘密中,而非单一组件。
最后,即使玻璃的选择也非平凡。"玻璃"包含许多具有不同光学和机械性能的配方,为长期可重复读写选择合适的基板是我们研发路线图的一部分。
因此,虽然其他人可以采购类似类别的组件,但障碍在于集成规范和运营可靠性,而非组装物料清单。
玻璃片的吞吐量和容量是多少
介质容量:对于第一代介质,设计目标是每片玻璃约10 GB,数据写入双面。这种格式优先考虑稳健性和确定性可读性,而非最大密度。对于体积密度考虑,重要的是我们计划使用100微米玻璃片。
我们计划转向更大的晶圆,这将使单个载体的容量增加一倍以上。
读写速度如何
最好将其分为介质特性、本地性能和系统级吞吐量。
读写速度(本地):在读写头级别,当前设计目标是每个头约500 MB/s的读写速度。这些是最小可行产品目标,而非已验证的生产数据。
吞吐量和扩展:吞吐量通过并行化实现。每台机器设计为最多同时操作八个并行头,单机总目标约4 GB/s。然后通过并行运行多台机器来扩展系统级吞吐量。随着时间推移,设施设计可同时容纳多台此类机器;我们的长期模型假设最多约100台读写机器并行运行。
端到端摄入速度还取决于数据如何到达——例如通过物理介质运输或广域网传输。因此设施位置和连接性构成整体系统设计的一部分,初始站点计划靠近主要网络枢纽,以支持高容量摄入和物理工作流。
你们说Ewigbyte不是设计为介质加库硬件,但肯定有硬件存在
任何物理归档系统必然包括硬件和软件。我们的区别不在于硬件是否存在,而在于系统如何暴露和运营。
Ewigbyte结合了硬件栈——光学读写单元、玻璃介质精密处理、自动化存储——和将此基础设施从客户抽象化的软件层。我们使用现成工业组件和定制子系统的混合,特别是在光学、校准、验证和玻璃处理方面。
在此之上,我们正在构建设计与现有存储平台(如对象存储系统)集成的软件。这允许客户将冷数据归档到不同后端——磁带、云服务或玻璃上的不可变副本——而无需更改应用程序工作流。
我们的默认模式是自己作为托管服务运营基础设施,包括玻璃介质的完整生命周期。同时,长期归档依赖于信任和可检索性。因此,我们计划随着时间推移提供专业级读出设备,以便客户可以独立访问和验证其数据,该架构也支持需要时的本地部署场景。
与使用磁带的分区数据中心相比,你们的设施如何为冷数据存储优化
在传统数据中心部署的磁带库仍然反映数据中心优先架构。超长期冷存储受益于不同的假设。
环境要求:磁带依赖受控和稳定的环境条件来满足长期可靠性预期,这在实践中促成了计划内的刷新和迁移策略。
相比之下,玻璃介质本身是惰性的。一旦写入,数据不依赖主动气候控制来保持可读性,也没有由介质老化驱动的计划迁移的固有需求。
能源模型:在静止状态下,存储数据消耗零能源。仅在读写操作期间以及介质移动时自动化才需要电力。这与嵌入在始终在线数据中心环境中的磁带库根本不同。
保真度和访问:磁带是顺序介质,长时间闲置后可能需要调节。对于基于玻璃的存储,数据表示随时间保持物理不变,并可直接访问。首字节时间由物理处理主导,而读取吞吐量随并行读取头数量扩展。
冗余和运营:容错编码结合多个物理副本和后续地理分离提供弹性。设施设计为主要自动化、"熄灯"操作,现场人员最少。
设施位置:由于无需持续冷却或高密度电力传输,设施不需要高端数据中心地产,但仍放置在摄入带宽重要的主要网络枢纽附近。
Q&A
Q1:Ewigbyte的光学存储技术与Cerabyte有什么核心区别?
A:两者都用于长期归档,但Ewigbyte直接在未涂层玻璃上使用紫外超短脉冲写入,将数据物理嵌入玻璃基板中,设计用于世纪到千年级别的保存。而Cerabyte则在玻璃上的陶瓷涂层中写入数据。此外,Ewigbyte采用托管服务模式,自己运营硬件,而Cerabyte销售读写硬件和介质给客户。
Q2:Ewigbyte的玻璃存储片容量和读写速度是多少?
A:第一代介质的设计目标是每片玻璃约10 GB(双面写入),使用100微米厚度的玻璃片。在读写头级别,目标速度约为每头500 MB/s。每台机器可配置最多8个并行头,单机总吞吐量目标约4 GB/s。未来设施可并行运行多达100台机器,大幅提升整体吞吐量。
Q3:基于玻璃的冷数据存储相比磁带有什么优势?
A:玻璃介质是惰性的,一旦写入无需电力、冷却或气候控制即可保持数据可读,静止状态零能耗。而磁带需要受控环境并定期刷新迁移。玻璃存储的数据表示物理不变,可直接访问,不像磁带那样需要顺序读取或长时间闲置后的调节。设施也无需高端数据中心基础设施。
好文章,需要你的鼓励
据报道,OpenAI正与亚马逊洽谈至少100亿美元的融资。亚马逊此前已是Anthropic的最大投资者,并为其建设了110亿美元的数据中心园区。若融资达成,OpenAI将采用AWS的Trainium系列AI芯片。Trainium3采用三纳米工艺,配备八核心和32MB SRAM内存。AWS可将数千台服务器连接成拥有百万芯片的集群。报道未透露具体估值,但OpenAI最近一次二次出售估值已达5000亿美元。
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。
各行业企业存储的数据量持续攀升,5PB以上已成常态,10PB以上也日益普遍。2026年非结构化数据管理的主题是全面增长:更多数据、更多投资、更多痛点以及更多AI安全风险。AI应用加速普及、数字化信息激增以及富媒体和传感器数据大幅增加推动了数据增长。随着AI推理应用的发展,企业将意识到非结构化数据管理对AI投资回报率的关键作用。
这项由伊利诺伊大学香槟分校等四所院校联合完成的研究,提出了名为DaSH的层次化数据选择方法。该方法突破了传统数据选择只关注单个样本的局限,通过建模数据的天然层次结构,实现了更智能高效的数据集选择。在两个公开基准测试中,DaSH相比现有方法提升了高达26.2%的准确率,同时大幅减少了所需的探索步数。