设在爱沙尼亚的 Storadera 的宣传理念十分简单:利用优化的磁盘存储技术、采用更高容量的叠瓦硬盘,并在未来规划中引入 AI 优化存储操作,提供低成本、单层 S3 存储云服务。
首席执行官、创始人及前软件工程师 Tommi Kannisto 表示,他受到美国存储企业 Backblaze 的启发,认为自己可以在欧洲提供基于磁盘驱动的 S3 对象存储服务。Storadera 成立于 2019 年,并于 2021 年在爱沙尼亚塔林正式上线,2023 年在荷兰启用了第二个数据中心。
Storadera 以每月 6 欧元/TB 的价格提供其单层 S3 存储服务 —— 而 Backblaze 的基础价格为每月 6 美元/TB —— 且不收取任何附加费用。在欧元起售价比较中,Backblaze 实际上拥有最低成本,其 6 美元/TB/月折合约 4.75 欧元;不过,Storadera 位于欧洲,其存储数据不受非欧盟国家的直接管辖。
Storadera 的费用相较于 Wasabi 略低,而与 AWS 相比则显著更具优势,因为 AWS 还会对数据出口收取费用。
Kannisto 在英国的一次 IT Press Tour 活动中提到,Storadera 的年收入略低于 100 万欧元:“我们已经实现盈利……利润非常可观,而且每月收入增长约 5%。”
他进一步说明,Storadera 与数百款兼容 S3 的应用程序均能无缝对接。借助 Veeam 等备份工具接入 Storadera,客户可以将第二份备份发送至云端,从而延长备份保留期限,无需购买新的云存储管理工具。
目前,Storadera 拥有大约 100 家客户,其中包括爱沙尼亚政府和电信公司 Telia。经销合作伙伴约占其存储数据的一半,而来自 Veeam 的数据占约 50%,因此大部分数据均为备份数据。
数据存储在标准硬盘中,这些硬盘安装于 JBOD(单盘组)中,每个 JBOD 包含 102 个硬盘。每个 JBOD 都连接到配备 32 GB 内存的服务器上。服务器中运行的服务由 100,000 行 GO 代码构成。Kannisto 表示,这是一个超融合架构: “所有软件均在所有服务器上运行,所有服务器都向所有 JBOD 写入数据,并且没有负载均衡单元。”
各数据中心具备自治性,并支持存储桶地理复制。
Kannisto 采购的是常规的 Western Digital 硬盘(荷兰数据中心使用的为 26 TB 硬盘),并表示由于大部分负载为文件写入,叠瓦磁记录(SMR)硬盘由于其更高容量和可实现的磁盘写入优化,已被列入未来规划。Kannisto 预计:“SMR 将使我们的资本支出降低 25%。”
当被问到是否采用 QLC SSD 时,他表示:“目前 100 TB 以上的 QLC SSD 仍然过于昂贵 —— 而且在未来十年内可能仍然如此。” 他曾在博客中讨论过 SSD 与 HDD 的问题,并写道:“价格差异甚至可能超过 10 倍。如果我们能在成本低 10 倍的硬件上提供足够快速的服务,这无疑像魔法一样。”
他还指出:“SSD 的可写入总量(TBW)是有限的,超过后便只能处于只读状态;而硬盘则不受此类严格限制。”
Storadera 在写入数据时采用可变块大小机制。低负载时使用较小的数据块,而高负载时则通过批量小文件写入组成较大块。系统采用 4+2、6+2 以及即将推出的 8+2 残差编码方案,并将数据块在多台服务器间进行条带化存储。所有数据均经过加密处理,并通过对象锁定技术确保数据不可篡改。每 60 天,系统都会检查数据完整性,以防止位腐蚀。
该系统在处理 2 MB 文件时速度可达到近 300 MBps,在持续的数据流下,利用 HDD 实现高速写入十分容易。尽管元数据存储在 SSD 上,但其仅占硬盘容量的约 0.05%,因此写入速度并不依赖 SSD。
Kannisto 表示,Storadera 正计划扩大区域覆盖,今年年中将在德国启用一个数据中心,随后将进一步扩展至英国,再到美国或加拿大以及亚太地区,但具体时间尚未确定。
可能的技术发展规划包括利用 AI 优化存储操作以及采用智能缓存技术以提供边缘访问。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。