面向智能世界,为什么需要软件定义存储数字平台? 原创

未来我们憧憬一个怎样的世界?万物智能应该是必不可少的条件之一。

未来我们憧憬一个怎样的世界?万物智能应该是必不可少的条件之一。那么需要一个怎样的数据平台来支撑万物智能的世界?我们一起探讨一种面向万物智能的数据平台——软件定义的分布式数据平台。Gartner报告,“到2025年,由于人工智能市场的成熟,人工智能将成为推动基础架构决策的最主要因素之一,这将导致基础架构需求增长10倍。”。

要谈面向万物智能的数据平台,就首先来了解一下面向智能世界的数据和过去的数据有什么差异,来构建新的数据平台。

Hitachi Vantara中国区技术销售总监谢勇认为AI时代的数据和过去的数据有以下几点差异。

首先,数据总量和数据类型比之前多很多以及更复杂。第二,数据的结构发生了变化。随时数据来源的多元化,以前,数据库里全部为结构化数据;现在,数据库里更多的是非结构化数据。第三,大数据分析处理需求更快。第四,成本的压力。

传统架构无法满足智能时代的数据处理

面对这些差异,传统架构无法适应AI时代的数据处理。从性能上看,后端的存储跟不上前端的计算性能不断提升。从扩展性看,海量数据对于存储系统的扩展性要求就非常之高,单一存储系统的容量至少需要到上百PB甚至EB级别才能满足企业的要求。从成本上看,在IT预算在不断缩减的环境下,如何以尽可能少的成本保存海量的非结构化数据,这将成为AI时代数据平台考虑的因素。

“因此,企业存储策略和存储系统也当应时而变,不仅需具备安全性、可靠性、大容量和高性能等长期要求的能力,还必须持续提升弹性和灵活性,满足数据在敏态、稳态不同的IT环境中的可靠流动和互联互通。” 谢勇谈到。

Hitachi Vantara 推出面向智能时代的分布式存储系统

为帮助企业顺利适应新环境和新趋势,Hitachi Vantara基于存储虚拟化操作系统 (Hitachi Storage Virtualization Operating System, SVOS) 调度和控制计算、网络、存储资源,实现传统存储和软件定义存储 (SDS) 的融合,根据企业的新需求,包括企业对性能、容量以及合规的需求,同时符合软件定义的趋势,推出了HCSF(Hitachi Content Software for File)。它是一个高性能分布式的文件存储系统。 它的优势总体来说就是“三个S” (Speed, Scale, Simplicity),即超高性能、无限扩展、简单易用。

首先,超高性能。HCSF作为新一代的并行文件存储系统,致力于创建在本地和公有云中的单一架构,兼具全闪存存储的性能、NAS存储的简单性,还有云端存储的可扩展性和经济性。

无论对于传统高性能计算中的大文件,还是对于人工智能驱动的高性能数据分析中常见的小文件;无论是顺序读写还是随机读写,它都能自动进行调优,提供足够高的吞吐率和超高的IOPS,以及极低的延迟。

第二,无限扩展。HCSF能轻松地实现EB级别的容量扩展,容量和性能会随着工作负载的大小随时进行线性扩展;它还可以通过后端的对象存储或云端的存储,实现更大、更经济性的容量扩展。所以,HCSF在容量和性能方面,均可以实现无限扩展。

第三,简单易用。简单化是HCSF的核心设计理念之一,客户不仅能轻松地安装和升级HCSF,维护它也非常简单。并且,在使用过程中,它针对复杂的环境能够自动进行性能调优,完全不需要干预,就能满足不同大小的文件和混合负载的需求。

Hitachi Vantara中国区资深解决方案顾问蔡慧阳谈到其具备的四个“极简”的特点:

第一,它是一个完整的存储平台,消除了数据孤岛,避免了传统架构中需要多套存储设备的复杂性。

第二,它是一个单一的管理接入点。整个存储空间的管理,包括对本地和云端的空间管理,通过一个单一的接入点就能实现。

第三,它是一套完整的文件系统,即使后端增加了保存温数据的对象存储或云端存储,对用户来说也是没有感知的。用户看到的仍然只是同一个文件系统。

第四,同一份数据只需要一份拷贝,数据无需来回流动、迁移和复制。

HCSF高性能分布式文件存储既能适配传统高性能计算,也能满足高性能数据分析和其他GPU加速场景对文件存储的极致性能要求。同时,HCSF通过广泛的接口支持,目前已经能够同时支持五种接口协议,未来还能够支持更多协议。在整个人工智能处理流程各个环节,支持更多协议意味着我们能够轻松适配前端的各种异构计算平台。

与众不同的设计理念和专利的技术让HCSF具备极致性能

HCSF为什么能提供这种极致的性能呢?蔡慧阳表示这来源于它与众不同的设计理念和专利的技术

第一,HCSF基于高性能硬件的设计标准。HCSF数据平台的架构是基于高性能介质NVMe、高速网络以及高速总线来进行设计的。HCSF通过底层的驱动优化,减少了数据传输的中间环节,从而大大缩短了延迟。

第二,对高性能全方位理解的设计理念。HCSF设计的初衷就是要规避传统分布式文件存储在各方面的局限性能,同时考虑高吞吐、高IOPS、低延迟高效的元数据处理。因此,无论是任何大小的文件,还是混合负载,它都能够自动调优提供无差别的高性能。传统存储通常要么只考虑高吞吐,要么考虑高IOPS,很难兼顾这些高性能。此外,当文件量增加时,传统存储提供的元数据处理能力可能会跟不上。这都是传统存储的局限性。

第三,HCSF采用专利的全分布式扩展架构,把数据和所有元数据都分布在所有的节点上。这一点很重要。因为传统架构只将元数据分布在某些节点上,所以它就会有瓶颈;如果是采用HCSF这种全分布式架构的专利技术,就能打破这些性能瓶颈,所以可以提高扩展性、聚合性能和弹性。

因此,HCSF集群越大,它的存储效率和读写性能也就越高。HCSF很轻松地就能通过普通大小的集群规模达到几百万IOPS和几百GB的带宽,而且这个延迟是非常小的,达到了微秒级。

此外,与传统的RAID或者普通的纠删码数据保护不同,当数据盘或节点损坏需要进行数据重构时,HCSF集群的重构时间会非常短。因为重构只针对受损的数据块,同时所有节点都参与了重构。

面向AI场景,HCSF助力实现客户价值

对客户来说,使用HCSF的客户至少获得了以下三个方面的主要价值:

第一、加快业务处理,缩短产品上市周期。在瞬息万变的商业市场,“兵贵神速”是每个企业的至高目标之一。如果谁能够比对手早一步把产品推向市场,谁就能把握先机、抢占更多的机会窗利润。

第二,客户获得了足够的灵活性,通过支持通用的硬件平台实现软件和硬件解耦,支持多云部署等,可以满足企业混合云架构的需求和灵活性。此外,HCSF能够提供多协议支持,企业通过单一存储平台就能满足多种业务接入的需求,而不需要买多个存储。

第三,降低了总体成本。HCSF能集中管理、自动调优,因此企业无需花大量成本来聘请高级技术人员来管理这套系统。除上述价值以外,HCSF实现了云分层,可以把一些需要长期保存的温冷数据,像本地对象存储或公有云上的S3存储做分层的存储。如此一来,企业能用更具经济效益、更大的磁盘空间来保存历史数据,将进一步降低总体拥有成本 (TCO, Total Cost of Ownership)。

可以看到,HCSF作为一个为AI而生的数据平台,提供丰富的接口,在整个人工智能数据处理的流程当中,无需像传统架构那样来回拷贝数据,也不需要进行复杂的性能调优。这样就避免了繁琐的分散管理流程;所有的数据处理流程完全是在一套文件存储系统当中进行,自动进行性能调优,有效解决所有传统架构遇到的难题。

以某量化基金为例,某量化基金公司管理的资金达到了上千亿。需要利用机器学习和人工智能,建立一些量化模型,以达到预测股票在某一个时间周期内的价格变化的目的,再基于此构建投资组合。在整个数据处理的过程当中,它首先需要搜集三个方面的数据来源:

整个大盘的深度行情数据。

上市公司的财报、公告、新闻等信息。

上下游产业链和股票相关的数据。

这家公司需要把这些数据采集完之后进行数据清洗,然后再进行进一步的处理。然而,这些数据量很大,很短时间就达到了PB级。在搜集和处理完这些数据(因子)之后,接下来就需要把因子输入到量化模型里面进行价格预测,从而得出最好的股票买卖价格和交易时间点。

这个过程对时间的追求是无止境的。“为什么这么说呢?在美国,很多对冲基金公司通常是建在东海岸而不是西海岸。而且很多公司就建在交易所旁边,或者是靠近海底光缆比较近的地方。因为一个毫秒、一个微秒间的信息优势都意味着巨大的价值波动。低延迟注定了量化投资对速度的极限苛求,也成为资本博弈中的核心。” 蔡慧阳讲解到。

经过几年的实践,客户发现整个高性能IT系统的性能瓶颈是出现在后端存储上。前期采用基于开源技术搭建了一套并行文件存储,在高性能和扩展性方面不能完全匹配前端算力的要求,很多处理是在等待。所以经过一系列的产品测试、性能测试、功能验证之后,它转向了HCSF搭建新的数据平台。在新的数据平台部署完毕之后,所有的性能和扩展性问题都得到圆满解决。

最后发言嘉宾表示,像人工智能、机器学习、GPU加速应用环境相关的典型的应用场景非常多,比如在金融行业,有很多的量化交易、风险管理、反欺诈和反洗钱等应用场景,这些都需要极低的延迟以尽快获得高性能分析处理结果。在生命科学这一领域,基因测序、基因分析、新药研发也需要缩短分析和研发的周期以实现新药更早的上市。在制造行业,企业为提高良品率需要做一些实时的质量检测和质量追溯,那么对后端文件存储的性能要求非常高。新能源汽车的自动驾驶模型训练和仿真测试,能源行业的油储和天然气储量探测及故障预测,以及媒体行业的视觉特效处理等都是典型的应用场景。

来源:至顶网存储频道

0赞

好文章,需要你的鼓励

2022

09/22

16:47

分享

点赞

邮件订阅