MAID待命中:Facebook王国中的冷门数据存储之塔

Facebook正着手将陈旧图像数据保存在特殊的冷门存储机房当中。从这个角度看,这座设施与绘没壁画的古埃及塔庙颇有相似之处,只不过其中塞满了采用纠删编码与反bitrot扫描技术的MAID,旨在提高存储密度、降低功耗成本同时提供高于磁带的数据访问速度。

Facebook公司正着手将陈旧图像数据保存在特殊的冷门存储机房当中。从这个角度看,这座设施与绘没壁画的古埃及塔庙颇有相似之处,只不过其中塞满了采用纠删编码与反bitrot扫描技术的MAID(即大规模闲置驱动器阵列),旨在提高存储密度、降低功耗成本同时提供高于磁带的数据访问速度。

在Facebook当中,每天的共享图片数量高达二十亿张,而且这一数字仍然在不断增加; Facebook方面并没有透露具体的增长速度,但其即时可用需求却已经属于不争的事实。有鉴于此,社交巨头已经建立起自己的两套专项设施,专门负责存储这部分图像信息。

这两座塔庙分别位于俄勒冈州普赖恩维尔与北卡罗来纳州林城的数据中心之内。它们所采用的机架中塞满了480块4 TB消费级磁盘驱动器,这意味着每套机架拥有1.92 PB存储容量,而机房中的约520套机架总计能够提供1 EB数据。当然,这些机架的重量也极为可观,每套约为1100公斤。

这套设计方案基于OpenVault OCP规范及扩展标准,旨在借此降低功耗水平同时控制预防数据丢失所需要的磁盘存储容量。

降低功耗

这些冷门存储机房当中不提供备用电池、不间断电源或者发电机,理由是这些机制主要面向关键性实时生产数据的安全保障——而非针对陈旧图像。

总而言之,这些冷门存储塔庙的运行功率仅为Facebook旗下传统数据中心的不到六分之一。

在这些存储机架当中,同一时间每套托架上仅有一块驱动器处于工作状态,并由经过专门修改的驱动器控制器固件负责确保这一机制。

MAID待命中:Facebook王国中的冷门数据存储之塔

Facebook公司的冷门数据存储磁盘托架

这一切使得每个存储节点上的风扇数量由原本的六个减少为现在的四个,三套供电架被缩减为一套,机架上的七组供电装置降低为五组。这些变更意味着一套机架只需要一组Open Rack母线,而非原本的三组。

服务器会根据需要进行启动,并由不断验证且对数据进行负载均衡以优化耐久性的智能软件负责管理。这意味着其能够在承载更多机架空间与更多存储托架的前提下,仅消耗相当于常规存储服务器四分之一的电量。

节约磁盘存储空间

在这里,实现数据持久性所需要的存储空间成本要远低于RAID,事实上甚至比单纯保留两套数据副本更低。Facebook公司希望避免单点故障问题,并以尽可能经济的方式对自己的整套系统进行恢复。

社交巨头决定,当出现灾难性的故障时、其将利用元数据存储用于数据恢复; 在这种意义上讲,这些数据能够进行自我描述。

里德-所罗门纠错码则被用于纠删编码方案。一个1 GB大小的文件被分为10个100 MB的片段,并额外配合4个片段用于保存里德-所罗门码,也就是总计占用1.4 GB空间。如此一来,如果14个数据片段中有4个遭遇丢失,只要它们各自被保存在不同的故障区当中、那么原大小为1 GB的文件就能够得到重建——根据统计数字来看,其成功比较相当高。

其中还采取了额外的验证层; 该软件负责创建、维护并不断进行复核校验,从而确保数据完整性。校验副本将与本体数据保存在一起,从而在发现错误状况后实现快速验证与复制。

Facebook公司还采用反bitrot扫描机制,用于审查保存在所有驱动器当中的全部数据并报告其损坏情况。一次完全的驱动器扫描大约需要耗费三十天,而工程技术人员们预计其能够通过一项单独的进程成功再现丢失的数据。该进程读取大量数据内容以重建其中的丢失部分,同时将其定稿到设施中其它位置的新驱动器当中。

总地来说,Facebook公司表示其已经能够将数据重建流程由过去的几个小时缩短到如今的几分钟,同时尽可能控制数据保护所带来的运营成本。

这套系统会不断对当前可用存储容量进行数据负载均衡检查,并假定新容量随时会被添加起来。这意味着其不需要在迎来新容量时进行特殊的数据迁移操作。

这套强大的广告平台同时也在评估其它替代性存储介质,例如蓝光光盘以及耐用性较差的闪存方案——我们估计其考量的应该是TLC芯片——同时考虑将文件分发到多座数据中心以实现更佳弹性水平的可行性。

那么这种专用型快速访问冷门存储方案是否适用于Facebook公司之外的其它具体需要?我们给出的答案是,可能可以,当然前提是大家需要的快速访问冷门存储方案在容量上会逐步突破100 PB大关。

也许这套OCP OpenVault规范未来将进行修订,从而反映出Facebook公司在内部设施层面所取得的成果,而后各大具备类似需求的云服务供应商及交付方也能够将其应用在自己的环境当中。

来源:ZDNet存储频道(编译)

0赞

好文章,需要你的鼓励

2015

05/08

20:47

分享

点赞

邮件订阅
白皮书