近日,由百易传媒(DOIT)主办的“2022数据与存储峰会”在北京顺利举行,本次大会以“数据觉醒新时代”为主题,旨在探讨新时代数据存储的新方向和对优秀企业进行表彰,信服云企业级存储EDS凭借其优越性能,接连斩获“2022年度分布式存储金奖”“2022年度文件存储金奖”两项大奖。
信服云EDS为何能在这次峰会上连续获得两项大奖?在深信服存储解决方案总监王志成“存储如何应对GPU算力爆炸增长下的小文件性能挑战”主题演讲中我们或许能知道答案。
01 GPU算力爆发式增长下,存储面临哪些挑战?
王志成指出,以GPU为核心的智能算力比重由2016年的3%提升至2020年的41%,GPU算力高速发展衍生出大量数据密集性行业应用,这些应用数据的存储面临三大挑战:
存储架构受限,小文件处理性能差
很多业务生产过程都会产生海量KB级小文件,比如芯片设计的前端设计场景,实景三维建模场景等,但无论是传统NAS存储还是新兴的分布式存储,由于元数据处理架构、网络时延等限制,都难以有效解决小文件处理性能差的问题上。
数据量井喷,“存不下”成为主要挑战
以基因测序为例,受当下环境和人口老龄化的影响,一个基因测序服务企业每年新增的数据量就高达10PB级。传统存储跟不上现有业务的数据增长,想要扩展却要面临硬件与厂商绑定、成本高昂、扩展周期长等一系列问题。
各场景数据复杂,存储效率提高难
行业业务需求正在呈现多样化的演进趋势,对数据存储的大带宽支持能力、海量小文件访问延时和复杂场景的适应性都提出极高的要求,存储需要更高效的数据访问能力。
“在当下的环境,用户需要一套性能更高、扩展性更强的企业级存储系统,来提升业务数据生产效率。”王志成这样说到。
02 信服云分布式存储EDS,更高性能突破瓶颈
王志成引用Gartner报告中“软件定义是存储唯一变革性技术”的观点,点明未来存储的发展之道。相比传统存储,以软件形式定义存储可提供更优秀的场景适应能力、更高的性价比和更灵活的扩容能力,在软件定义的基础上,信服云EDS通过全自研高性能文件系统PhxDFS和五大核心技术提升存储综合能力:
多活元数据服务,性能再提升
为了解决性能不足的问题,EDS将一个完整目录分片后分发到各个存储节点处理,充分利用起所有节点的CPU算力,从而突破元数据性能瓶颈。对比Ceph架构的分布式存储,元数据处理能力可提升三倍以上。
元数据高效压缩算法,数据“存得下”
在海量小文件场景下,元数据的规模可能达TB级,为了将更多的元数据缓存到有限的存储内存空间,EDS自研元数据压缩算法,该技术最大可支持7:1的压缩比。在百亿小文件场景下实现元数据、热数据百分百命中内存缓存,让数据“存得下”“找得快”。
数据三级缓存机制,数据访问更快一步
EDS追求高性能的同时,同样注重数据读取效率。在专有客户端模式下,EDS将客户端内存、存储节点内存和大容量NVMe固态盘构建成三级缓存,实现数据和元数据就近访问,命中即返回,该技术将热数据的访问时延降低到us级别。相比过去,数据访问更快、效率更高。
高性能RDMA网络,网络时延再降低
EDS在存储业务网和存储私网均支持以RoCE v2协议替代TCP/IP协议,可将网络时延降低90%以上,业务联通仅需9-16us,可大幅缩短业务数据的联通时间。
数据智能聚合追加写,效率再提升
EDS将文件IO在高性能层(NVMe或SATA SSD)聚合后追加写入容量层(机械盘),可有效解决小文件写放大造成的容量浪费,利用机械盘本身顺序写性能优势,进一步降低EC写惩罚影响,提升写性能的同时可有效提升60%以上的回刷速度,进一步减少数据存储、调用的耗时,提高业务效率。
信服云企业级存储EDS保护数据也敬畏数据。在不断的技术创新中积极实践,现已累计参与交付超过20000个客户和300+例的PB级项目。在未来,EDS将持续打磨产品,与用户携手共创高性能存储时代的数据宏图。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。