戴尔科技滕昱:高性能对象数据湖 助力新型工作负载 原创

滕昱受邀接受至顶网的采访,分享了高性能对象数据湖对于现代化应用的价值以及戴尔科技在高性能对象数据湖领域的创新。

第18届CCF全国高性能计算学术年会(CCF HPC China 2022)于2022年12月12日-15日在线上举行。由中国计算机学会主办,中国计算机学会高性能计算专业委员会、齐鲁工业大学(山东省科学院)承办,山东省计算中心(国家超级计算济南中心)、济南超级计算技术研究院、北京并行科技股份有限公司协办。希望通过云端论坛、云端展览、云端赛事、颁奖等多方案进行给大家带来一场空前的盛会。

戴尔科技滕昱:高性能对象数据湖 助力新型工作负载

戴尔科技集团软件工程高级总监滕昱

大会上,戴尔科技集团软件工程高级总监滕昱分享了《高性能对象数据湖 助力新型工作负载》的主题演讲。在大会期间,滕昱受邀接受至顶网的采访,分享了高性能对象数据湖对于现代化应用的价值以及戴尔科技在高性能对象数据湖领域的创新。

高性能对象数据湖应时代发展而生

媒体娱乐、生物医学、教育、金融自动驾驶和科研等领域产生海量的数据,以自动驾驶为例,人工智能/机器学习模型训练、大数据处理以及高性能计算(HPC)等新型工作负载会产生海量的数据,尤其是海量非结构化/半结构化小文件。 Gartner预估,单个自动驾驶联网车辆每天至少产生4TB数据,每年会产生约数百PB的数据。

同时,多云正在成为越来越重要的业界趋势之一,据统计,目前全球 81% 使用云服务的公司或组织正在使用多云,而其中 90% 的企业表示多云能帮助他们更好的实现业务目标。现在,许多大企业和政府机关早已将业务分布在不同的云服务商上。比如苹果公司为了处理不断增长的服务需求,在使用亚马逊和自建数据中心之外,也在不断增大使用谷歌云的预算,仅 2021 年就增加了 50%,达到了 3 亿美元。实施多云战略,能够帮助企业降低成本,提高服务效率。

新兴应用的爆发增长以及业务拥抱多云的背景下,海量的非结构/半结构数据需要一种新兴的存储抽象来应对这一种强调低延时、高并发流量的数据。特别是这个架构需要考虑云原生时代的底层架构对于动态伸缩的需求。因此基于对象存储构建的高性能对象数据湖应运而生。

“使用分布式对象存储的分层架构模式来应对海量数据的挑战。底层的可扩展存储层可以作为一个数据湖,任一应用端实时数据转变成历史数据可以存入其中与其他应用的数据集共存,在节省了数据迁移、存储运维开销的同时可以解决数据孤岛的问题,批流结合的计算将会更加方便,同时这样分层架构可以很好的适配从边缘到核心到多云的架构。” 滕昱解释到高性能对象数据湖这么解释到。

构建面向海量非结构化/半结构小文件的高性能对象数据湖,不仅可以应对高密集的数据读写和海量数据归档存储的需求,提供高性能、高扩展性、低成本、高可靠、高可用、分层管理的能力,也能够提供完全兼容多个公有云的数据管理能力。

高性能对象数据湖的底座是戴尔全闪存对象存储EXF900

戴尔打造的高性能对象数据湖基于戴尔ECS对象存储技术,通过使用NVMeoF技术的戴尔全闪对象存储 EXF900,能够为企业的新的工作负载包括AI、机器学习、物联网和实时分析等应用提供更强的性能,可以说ECS结合全闪成为高性能对象数据湖的坚实底座。

戴尔ECS还具备横向扩展打造全球分布式数据湖的企业级能力。戴尔ECS支持横向扩展的集群,它可以支持添加节点和对象存储和容量,按需添加新节点、对象存储和容量。并且轻松帮助企业设计一个从边缘到核心的全球可访问的数据湖,只需单击几下即可跨站点复制存储桶,实现与其他用户和应用程序共享数据的能力。戴尔ECS还能够满足现代化应用和传统工作负载的混合负载,拥有丰富的 S3 兼容性和可扩展性包括支持最新S3功能的API,兼顾高性能和低 TCO 要求。

戴尔ECS还有两个独特优势,一个是丰富的元数据操作能力,一个是开放的接口。

一个巨大的优势是元数据操作能力,帮助用户更好地搜索、检索和查询数据。包括自动驾驶、医疗、生命科学领域等对元数据标签都是非常大的需求。戴尔高性能对象数据湖能够通过元数据标签,快速调用数据。

其次是API,多云环境下,要求更容易地集成公有云和本地部署的软件来协调开发人员和IT的需求,加速应用程序开发和提升时间,在这点上,也是ECS的优势之一。ECS通过K8s,通过S3的接口能更方便开发人员去做新的应用开发和与基础架构的集成。

以人工智能应用来通俗易懂地了解高性能对象数据湖

AI里面很重要的就是模型训练。我们以人工智能的训练模型的数据应用角度来讲可以分为几个阶段,数据采集、数据准备,包括训练推理,还有很重要的是数据归档的几个阶段。

在数据采集阶段,“大家知道AI训练数据是极其巨大的,比如说一辆车一天就产生了海量的数据,这种情况下多一份拷贝对整个流水线来说都是无法承受的。戴尔科技构建的高性能对象数据湖拥有边缘部署的选项,可以把数据从边缘推到核心来进行一些数据的训练,并提供无限扩展,无节点、租户或容量限制的能力。” 滕昱讲道。

在数据准备阶段,基于戴尔科技ECS打造的高性能对象数据湖还能够提供数据可视化的功能,具备操作简单、低TCO的特点。

在训练阶段,因为它本身的弹性伸缩,要结合不同的硬件,包括弹性伸缩应对上面的数据训练的引擎,戴尔全闪存对象存储EXF900基于NVMeoF技术对性能和时延的需求都有自己得天独厚的条件。

归档这个层面是天然的对象存储比较适合的点,戴尔科技提供的对象存储还拥有数据唯一性、保护和加密功能,也具备大规模业务连续性——没有软件容量限制,实现了TCO优化的S3 备份和长期存档的能力。

“戴尔高性能对象数据湖解决方案以戴尔ECS对象存储技术结合全闪存架构打造了从边缘到核心的全球可访问的高性能对象数据湖,实现了数据入湖、数据消费和数据分析全流程。”滕昱最后分享到。

来源:至顶网存储频道

0赞

好文章,需要你的鼓励

2022

12/27

09:13

分享

点赞

邮件订阅