Facebook公司正着手将陈旧图像数据保存在特殊的冷门存储机房当中。从这个角度看,这座设施与绘没壁画的古埃及塔庙颇有相似之处,只不过其中塞满了采用纠删编码与反bitrot扫描技术的MAID(即大规模闲置驱动器阵列),旨在提高存储密度、降低功耗成本同时提供高于磁带的数据访问速度。
在Facebook当中,每天的共享图片数量高达二十亿张,而且这一数字仍然在不断增加; Facebook方面并没有透露具体的增长速度,但其即时可用需求却已经属于不争的事实。有鉴于此,社交巨头已经建立起自己的两套专项设施,专门负责存储这部分图像信息。
这两座塔庙分别位于俄勒冈州普赖恩维尔与北卡罗来纳州林城的数据中心之内。它们所采用的机架中塞满了480块4 TB消费级磁盘驱动器,这意味着每套机架拥有1.92 PB存储容量,而机房中的约520套机架总计能够提供1 EB数据。当然,这些机架的重量也极为可观,每套约为1100公斤。
这套设计方案基于OpenVault OCP规范及扩展标准,旨在借此降低功耗水平同时控制预防数据丢失所需要的磁盘存储容量。
降低功耗
这些冷门存储机房当中不提供备用电池、不间断电源或者发电机,理由是这些机制主要面向关键性实时生产数据的安全保障——而非针对陈旧图像。
总而言之,这些冷门存储塔庙的运行功率仅为Facebook旗下传统数据中心的不到六分之一。
在这些存储机架当中,同一时间每套托架上仅有一块驱动器处于工作状态,并由经过专门修改的驱动器控制器固件负责确保这一机制。
Facebook公司的冷门数据存储磁盘托架
这一切使得每个存储节点上的风扇数量由原本的六个减少为现在的四个,三套供电架被缩减为一套,机架上的七组供电装置降低为五组。这些变更意味着一套机架只需要一组Open Rack母线,而非原本的三组。
服务器会根据需要进行启动,并由不断验证且对数据进行负载均衡以优化耐久性的智能软件负责管理。这意味着其能够在承载更多机架空间与更多存储托架的前提下,仅消耗相当于常规存储服务器四分之一的电量。
节约磁盘存储空间
在这里,实现数据持久性所需要的存储空间成本要远低于RAID,事实上甚至比单纯保留两套数据副本更低。Facebook公司希望避免单点故障问题,并以尽可能经济的方式对自己的整套系统进行恢复。
社交巨头决定,当出现灾难性的故障时、其将利用元数据存储用于数据恢复; 在这种意义上讲,这些数据能够进行自我描述。
里德-所罗门纠错码则被用于纠删编码方案。一个1 GB大小的文件被分为10个100 MB的片段,并额外配合4个片段用于保存里德-所罗门码,也就是总计占用1.4 GB空间。如此一来,如果14个数据片段中有4个遭遇丢失,只要它们各自被保存在不同的故障区当中、那么原大小为1 GB的文件就能够得到重建——根据统计数字来看,其成功比较相当高。
其中还采取了额外的验证层; 该软件负责创建、维护并不断进行复核校验,从而确保数据完整性。校验副本将与本体数据保存在一起,从而在发现错误状况后实现快速验证与复制。
Facebook公司还采用反bitrot扫描机制,用于审查保存在所有驱动器当中的全部数据并报告其损坏情况。一次完全的驱动器扫描大约需要耗费三十天,而工程技术人员们预计其能够通过一项单独的进程成功再现丢失的数据。该进程读取大量数据内容以重建其中的丢失部分,同时将其定稿到设施中其它位置的新驱动器当中。
总地来说,Facebook公司表示其已经能够将数据重建流程由过去的几个小时缩短到如今的几分钟,同时尽可能控制数据保护所带来的运营成本。
这套系统会不断对当前可用存储容量进行数据负载均衡检查,并假定新容量随时会被添加起来。这意味着其不需要在迎来新容量时进行特殊的数据迁移操作。
这套强大的广告平台同时也在评估其它替代性存储介质,例如蓝光光盘以及耐用性较差的闪存方案——我们估计其考量的应该是TLC芯片——同时考虑将文件分发到多座数据中心以实现更佳弹性水平的可行性。
那么这种专用型快速访问冷门存储方案是否适用于Facebook公司之外的其它具体需要?我们给出的答案是,可能可以,当然前提是大家需要的快速访问冷门存储方案在容量上会逐步突破100 PB大关。
也许这套OCP OpenVault规范未来将进行修订,从而反映出Facebook公司在内部设施层面所取得的成果,而后各大具备类似需求的云服务供应商及交付方也能够将其应用在自己的环境当中。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。