难言之隐,分布式存储软硬件解耦究竟难在哪里?

说到分布式存储,我们可能都会联想到软件定义存储(Software Defined Storage,即SDS)。

 

说到分布式存储,我们可能都会联想到软件定义存储(Software Defined Storage,即SDS)。代表全球存储厂商的权威协会SNIA(全球网络存储工业协会)对SDS定义:软件定义存储包括管理面的标准接口和自动化,以及数据面Scale-out的块、文件和对象存储服务。

难言之隐,分布式存储软硬件解耦究竟难在哪里?

来源:https://www.snia.org/sites/default/files/SNIA_Software_Defined_Storage_%20White_Paper_v1.pdf

业界很多分析师和厂商都认为“SDS”应该和硬件解耦,可以部署在容器、虚拟机、标准裸金属服务器上。但在上述SNIA发布的SDS白皮书中,SNIA并不认同这种观点,而是更关心SDS实现管理面的自动化和数据面的弹性。

难言之隐,分布式存储软硬件解耦究竟难在哪里?

 

分布式存储软硬件解耦之错觉来源

或许我们需要把镜头投向21世纪初期,Google提出分布式存储架构的概念并予以实践,在其强大的技术和维护团队支撑下,实现了基于在标准服务器上部署自研分布式存储软件,构建成大规模存储集群,以应对其互联网搜索业务带来的海量数据流。

正所谓一石激起千层浪,其他互联网企业纷纷效仿“老大哥”Google的方式,使得软硬件解耦的概念在互联网行业盛行起来,迎来了一大帮研究者对其价值进行分析,并总结出如下四点价值:

l  标准x86服务器的低成本;

l  归一数据中心硬件为标准服务器,实现统一硬件运维;

l  Infrastructure as Code,存储纳入软件定义数据中心自动化调度框架;

l  用户可以在企业数据中心、边缘或者公有云获得一致的数据服务。

可以说,分布式存储在互联网浪潮中横空出世的样子太过于绚烂,以至于大家忘记了存储系统本身应该有的模样。冷静者更喜欢用辩证的思维分析问题,所以,我们也看到很多用户对“软硬件解耦”表现出担忧,认为软硬件解耦的分布式存储在可靠性、性能、运维等方面存在诸多待改进点。

 

分布式存储软硬件解耦之难点剖析

难言之隐,分布式存储软硬件解耦究竟难在哪里?总结起来有如下几点:

l  难点一:可靠性

存储承载了千行百业用户数据资产,一旦因存储故障出现数据丢失,将给企业带来无法挽回的巨大损失。存储的核心部件是硬盘。业界流传着一句话:SDS就是把不可靠的标准化服务器变成了可靠的存储系统。这句话的背后技术基础是SDS通过跨节点的冗余算法,可以容忍服务器节点故障。但这句话真的完全正确吗?某些用户在实践中发现,其采用的标准服务器偶尔出现批量硬盘/SSD卡故障,冗余算法失效,导致数据丢失。

通过和软硬件一体的厂商深入交流,用户发现软硬件一体存储硬件和标准服务器的质量控制流程有较大差异。标准服务器的成本低廉,生产流程质量控制多数限于CPU、内存、硬盘三大件的简单功能测试。而专业存储硬件增加了避免批量硬盘故障的严苛保障措施,例如:

u  TOP存储厂商会在硬盘供应商规划、设计新款产品时,对其特性、规格、方案做严格的评审,以确保新款硬盘和存储产品深度契合。

u  新款硬盘上市之前,TOP存储厂商会基于大批量样盘进行长达数月的系统兼容性和稳定性测试,以确保一块硬盘在35年生命周期内正常运行。

u  硬盘批次变更、Firmware变更,存储厂商会重新执行上述稳定性测试。

u  某些TOP存储厂商甚至会指定供应商的硬盘产线。

数据是企业的核心资产,软硬件一体存储的附加值其实来自于平常不为人知的背后故事。

l  难点二:性能SLA保障

随着企业数字化转型的深入,分布式存储由最初的开发测试、桌面云等非关键应用,逐步走向生产应用。生产应用除了上述可靠性SLA要求之外,对分布式存储的性能,尤其是数据访问的稳定低时延提出了更严苛的要求。

软硬件解耦的分布式存储在性能设计上存在两大天然缺陷:

u  标准服务器不具备机房突然断电时保护内存数据的电池(BBU),所以只能用SSD/盘来做数据缓存。SSD的时延远高于内存,导致业界绝大多数的软硬解耦的分布式存储时延无法和生产存储媲美。

u  单独采购的分布式存储软件无法和第三方服务器的SSD盘紧密配合,从而无法像业界先进的全闪存存储一样实现全局垃圾回收,控制数量众多的SSD盘各自的垃圾回收导致的生产应用时延波动。

软硬件一体的分布式存储有机会克服如上两大缺陷。我们看到业界先进的分布式存储产品,采用了类似于全闪存存储的电池保护(BBU)、系统级全局垃圾回收,达到了媲美传统生产存储的高并发压力下的1ms稳定时延,从而为分布式存储进入企业生产应用提供了性能的SLA保障。

l  难点三:运维风险

软硬件解耦给用户带来大量的维护负担,例如几乎无法实现有效的自动化部署与深度巡检。而且使用期间出现问题时,供应商容易互相推诿,软件和硬件厂家责任界面不清晰,用户反而可能沦为问题定位的第一责任人。

软硬件一体存储可以提前设计自动化部署技术方案,从端到端全生命周期构建自动化运维的能力,从而提升交付、运维效率,降低业务风险。

l  难点四:长期总拥有成本

软硬件解耦宣称的降低采购成本本质是认为标准服务器便宜。然而,存储的附加增值更多是软件、质量控制、技术支持。用户花了很大力气分离采购回来软硬件部署上线后,慢慢发现省的钱相对于DIY的后期投入不值一提。原因很简单,在相同质量要求下,规模化工业生产永远比DIY综合成本低。采购成本是显性的,但综合成本不是简单的硬件采购成本,还要考虑使用和维护成本。

 

根据行业场景各取所需,实现鱼和熊掌兼得

对于广大着急踏上数字化转型高速列车的行业用户来说,到底是选择软硬解耦还是专业存储厂家预集成的软硬件一体产品呢?在商业的世界里,或许没那么多路线和理念之争。软硬件解耦的优势在于采购成本,软硬件一体的长处在于可靠性和性能。所以,根据用户场景的数据重要性,选择最合适自己的方案才是明智之道,鱼和熊掌其实可以兼得。

l  软硬件一体已成共识的行业场景:HPC/HPDA(能源勘探、卫星遥感、基因测序、自动驾驶、气象海洋、教育科研、动漫渲染、超算平台等)、平安城市视频监控/交通卡口、超高清视频制作/媒资库、运营商IPTV等。

l  更适合用软硬件一体的行业场景:政务云;运营商BOM域云化、5G电信云;金融网银、手机银行、前置系统Web应用、票据影像等;大数据分析(政务、运营商、平安城市、金融等)以及各行业备份归档系统。以中国移动为例,早年大量购买分布式存储软件,搭配集采的标准服务器使用。近两年,不管是分布式块还是文件的集采,都已经全面转向软硬件一体模式。

l  可以解耦的行业场景:各行业开发测试、桌面云。这部分场景数据的重要性略低于生产场景,IT预算紧张的用户,可以尝试。当然,预算足够的用户可以更加稳妥。

 

无论如何波折,分布式存储未来可期

正所谓不管白猫、黑猫,抓到老鼠的就是好猫。我们相信在较长一段时间内,分布式存储软硬件一体和软硬件解耦会长期共存。总体而言,笔者认为随着数据价值的增高,场景对数据可靠性的要求随之会越来越严苛,市场的天平就会更多偏向软硬件一体;与此相反,场景对数据可靠性的敏感度越低、短期成本敏感度越高,市场的天平就会更多的偏向软硬件解耦。

分布式存储的发展历程无论如何波折,我们更愿意相信它最终会是部正剧,在整个存储市场中占据海量数据承载的主力军位置,铿锵而立,并给人以无穷回味!

来源:业界供稿

0赞

好文章,需要你的鼓励

2021

09/18

09:55

分享

点赞

邮件订阅