根据 Xinnor 发布的一份案例研究 [PDF],新加坡一所知名大学通过采用 Xinnor 的 xiRAID 存储技术,显著提升了其 AI 研究速度。
为支持持续性研究工作,这所未具名大学部署了包括 Nvidia 在内的多个 GPU 和计算系统。
该校的部署方案支持医疗保健和自然语言处理等领域的高级 AI 项目,并配备了 BeeGFS 客户端和服务器集群。BeeGFS 是一个为高性能计算开发的并行文件系统,包含分布式元数据架构,提供可扩展性和灵活性。
在存储需求方面,该大学要求具备快速数据访问能力、数据保护、易于部署和管理、成本优化,以及能够根据未来客户端增长和性能需求进行扩展的能力。
为满足这些要求,由 Xinnor 本地合作伙伴 On Demand System (ODS) 设计的存储方案通过两个 100Gb InfiniBand 端口,实现了 24.7Gbit/秒的顺序读取性能。
该基础设施包含两个服务器节点,每个节点配备 24 个 NVMe 驱动器,并由 xiRAID 提供保护和加速。这种配置不仅满足了所需吞吐量,还确保了数据保护和未来扩展的可能性。
软件驱动的 xiRAID 技术采用先进算法提供冗余和容错能力,即使在多个驱动器同时故障的情况下也能确保数据安全。针对未来的性能需求,该大学可以通过增加 InfiniBand 卡来提升性能。
Xinnor 首席营收官 Davide Villa 表示:"xiRAID 能够实现接近完美的资源利用率并最大化 NVMe 性能,这对学术研究来说是一个突破性进展。我们与 ODS 的合作展示了软件定义 RAID 如何满足 AI 和高性能计算工作负载的严格要求,同时优化成本并简化部署。"
On Demand System 创始人 Rakesh Sabharwal 补充道:"通过将 xiRAID 作为解决方案的核心,我们帮助该大学在研究和创新领域突破了界限。xiRAID 与 BeeGFS 的无缝集成为大学提供了可靠、高性能的存储基础,完全符合大学的发展愿景。"
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。