西安交大张兴军教授：通过存储创新推动数据密集型超算发展

2021国际超算大会（ISC2021）继2020年因疫情原因在线上举行后再次通过线上形式召开。

[2021年6月29日, 西安]2021国际超算大会（ISC2021）继2020年因疫情原因在线上举行后再次通过线上形式召开。大会期间，来自西安交通大学的张兴军教授面向全球做了《通过存储子系统架构创新推动数据密集型超算发展初探》的主题演讲。张教授在演讲中指出超算产业正在从HPC走向高性能数据分析（HPDA），且随着数据密集型应用的爆发让存储成为新的瓶颈。通过西安交大与华为的研究结果表明：基于OceanStor Pacific存储的多协议互通、DPC并行客户端等创新科技可以实现30%的CPU开销节省，且HPDA应用性能提升20%以上。

西安交通大学张兴军教授 ISC2021主题演讲

HPC与AI，大数据走向融合，HPDA应运而生

随着5G、云、AI等技术的快速发展，视频、图片等海量数据呈指数级增长。预计从2020年到2025年，全球数据规模将爆发式增长至百ZB水平，这就促使HPC行业从计算驱动演进为数据驱动。从HPC存储增长的各种驱动因素看，我们也可以发现，HPC与AI和大数据密不可分。

在过去的15年间，数据分析生态迅速扩展，催生了许多新兴的解决方案，这些工作都是由HPC社区以外的人完成的。HPC解决方案已在不同的科学领域（模拟和建模）中使用多年。计算科学建模和数据分析在科学研究中都至关重要。两个生态在解决方案和技术上的融合是加速科学发现的关键因素。在此背景下，高性能数据分析（HPDA）应运而生并迅速发展。

数据密集型成为HPDA以及传统HPC演进的典型特征

HPDA市场驱动因素主要有以下几个方面：

其一是输入数据增多，例如更强大的科学仪器/传感器网络和更大量的交易/更严格的审查；

其二是用于集成或分析的输出数据增多，比如更强大的计算机、更强的真实感和可用时间内更频繁的迭代；

其三是需要使用更智能的数学模型和算法提出更智能的问题；

最后是实时性、近实时性需求，例如在实施之前及时发现信用卡诈骗、在患者离开办公室之前作出疾病诊断、在客户挂断电话之前提供保险报价等。

我们可以看到HPDA应用，譬如自动驾驶等。由于其大数据以及AI算法的要求，其天然具备数据密集型的属性。

而值得一提的是，传统的HPC也在加速往数据密集型转变。过去几年，HPC主要用于建模和仿真负载，如天气预报、计算机辅助工程等，这些都是典型的计算密集型场景。现在，数据分析HPC成为主流，人工智能和大数据等新兴分析工具被引入传统HPC，使海量数据的价值最大化，如精准医疗和诈骗检测等，推动HPC行业向数据密集型转变。

数据密集型应用爆发让存储成为传统HPC系统的瓶颈

我们可以看到，在主流的TOP 500系统中，能很好地支撑数据密集型应用的很少。这是因为HPDA应用带来的计算需求是应用和计算能力多样化，且存储需求是超500PB的大容量、互通协议的多样化以及高带宽和高IOPS。由于频繁的数据访问，存储系统成为传统HPC系统的瓶颈。

现在我们来看一下我们研究中遇见的两个数据密集型案例。一个是气候研究。随着像E3SM这样的复杂地球系统模型向更高分辨率发展，研究人员需要更多的网格单元来覆盖整个地球，这就导致I/O性能成为在模型运行时输出网格单元所有数据的一个关键问题。例如，ne1024 F案例模拟写入大小约为3TB的重启文件。模型运行时，不同的网格单元需要不同的计算结果和频繁的点对点信息交换，导致传统NFS协议性能不佳，需要支持MPI-IO。此外，分类、定位、目标检测和分割等模式识别任务在天气和气候科学中仍然是具有挑战性的问题。

在研究过程中，我们发现气候应用通常是混合负载，例如在样本读取阶段存在大量小I/O随机读操作，而在一个时序结束后存在一个大模型文件写入操作。

另一个案例是HPC日志分析。通常，HPC集群每天每个节点生成约1GB的日志，这些日志为领域科学家和系统管理员提供了高价值的洞察，例如系统健康状况、故障根因详情以及应用与系统的交互分析等。在整个信息分析过程中，通常存在多种负载并运用了多个协议，例如，我们集群日志收集通常使用NFS/CIFS协议处理大文件，该协议需要高带宽；而导入另一个集群分析则用到了HDFS协议，这个协议对IOPS的要求更高。

多协议互通、混合负载成为数据密集型应用下海量数据处理的迫切诉求

结合上述两个案例我们发现数据密集型应用存在以下挑战：

首先是多协议互通和面向混合负载。HPC与大数据、AI的融合，使得多协议访问在数据处理中越来越频繁。在一些典型应用中，研发和分析过程中使用到了NFS、HDFS和S3协议，光数据迁移就占总数据处理时间的35%以上。另外，负载在不同阶段呈现多样化，给存储系统带来了混合负载的挑战。密集型应用的数据I/O具有以下特点：单个目录插入百万个文件，同一个文件同时存在数百万个写入，任务从单核到几百万核，文件大小从0字节到数PB，工作流从数小时到一年等。这就要求存储系统优化每个阶段的时延开销，用高性能来应对高并发元数据操作。

其次的挑战是单位时间内处理的数据量越来越大。例如，基因测序仪每天可以生成6TB的数据，卫星遥感中单个卫星每年约采集1PB的数据，自动驾驶训练中一台测试车每天可以生成多达60 TB的数据，油气勘探中二维到三维的发展使得数据量也增长了10倍，这些都需要大容量（>500PB）、高性能（带宽>2TB/S、IOPS>100万、时延<1ms）的存储系统。

华为OceanStor Pacific：用技术创新成就数据密集型超算的理想之选

我们在研究中使用了OceanStor Pacific新一代并行文件系统。OceanStor Pacific在统一元数据架构、大小I/O处理、分布式并行客户端等方面都有诸多创新。OceanStor Pacific优化了每个阶段的时延开销，同时支持高带宽和高IOPS，加速我们的科学研究。

传统的多协议互通是基于文件或对象存储实现的。相比之下，OceanStor Pacific采用了“三无”架构。所谓的“三无”指的是无网关插件、无语义损失、无性能损失。文件、HDFS和对象协议基于统一的非结构化数据底座。在没有主备关系的情况下，这些协议共享一份元数据和数据，同时利用了文件和对象协议的优势。

I/O处理上，OceanStor Pacific实现了大小I/O分流。大I/O从客户端直接传递到磁盘，减少路径开销。小I/O在缓存层聚合后写入磁盘，大大减少I/O交互次数。相对于传统的小I/O聚合，OceanStor Pacific基于单边RDMA实现数据镜像，保证I/O聚合的可靠性。只有主存储节点涉及CPU和内存之间的数据复制。与传统缓存镜像相比，OceanStor Pacific进一步降低了30%的CPU开销，在保证低延迟的同时提高了IOPS。

为了进一步提高并行访问性能，OceanStor Pacific还采用了分布式并行客户端（简称DPC）。与传统NFS客户端不同，DPC支持单个客户端并发访问多个存储节点，消除单客户端和单流的性能瓶颈。DPC支持MPI-IO和RDMA网络，能更好地融入应用生态、降低访问时延。数据访问上，DPC支持I/O级的负载均衡，充分利用集群能力。

西安交大正在与华为合作研究MPI-IO、DPC和DPU等优化技术，以进一步提高存储在HPDA中的性能。基于MPI-IO和DPC与华为合作，通过有效利用数据访问特性和属性来优化存储性能，并计划通过存储计算协同将应用软件的性能提升20%以上。

面向未来，我们合作的另一个创新课题是DPU，DPU在HPDA系统中扮演着关键的角色。我们正在研究异构算力的调度和卸载以及卸载不同算子的可行性，以通过将某些流程卸载到DPU来减少数据移动并提高效率。