数字经济时代,数字技术结合新应用产生了海量数据。据IDC预测,2025年,全球数据量将达到175ZB,而数据中心存储量占比将超过70%。
过去,存储面对的应用主要是数据库、文件和流媒体等传统应用;今天,在新兴应用驱动下,存储主要面对的是云计算、大数据和人工智能等大规模数据应用场景。面对新兴应用和海量数据,存储架构在性能、扩展性、安全性以及管理性等方面的瓶颈逐步凸显出来。
至顶科技推出的系列访谈节目《论存储新技术 道数据新价值》,继续邀请西部数据和他的伙伴一起聊聊数据的故事。本期节目,同有科技技术总监王刚、西部数据资深售前工程师芦浩和至顶科技总经理高飞一起探讨了海量数据带来的新挑战,以及同有科技如何基于存算分离的新一代IT基础架构赋能客户更好的释放数据价值等话题。
海量数据增长带来的新挑战
海量数据时代,数据存储面临哪些新的挑战?采访嘉宾从不同角度探讨了数据增长带来的新挑战。
在经济趋缓的背景下,如何节省企业存储成本,已经成为优化企业IT开支的重要环节。而海量数据与存储成本天然存在矛盾。这是随着累积的数据量的增大,数据存储和处理的成本越来越高,企业数据基础设施的投资越来越大,从而会挤占企业基于大数据业务创新的空间。
从实际业务看,“如何以最优的成本来实现海量数据的存储和高速处理,并提供端、边、中心、云的统一数据保护和管理,是当前海量数据存储业务面临的全新挑战。” 芦浩分享道。
王刚从应用角度分析了目前数据存储面临的挑战。他认为,当前企业IT架构的迭代更新更多的投入在计算端,忽略了存储性能和功能给企业业务带来的价值。因此数据存储的挑战主要包括性能、功能以及架构的复杂性三方面挑战。
基于IoT、人工智能、大数据等新兴应用的发展,存储已经成为影响业务系统极为关键的重要基础架构之一,而基于海量数据形成的复杂业务,急需要构建满足不同格式、多样化数据类型的数据湖、数据仓库,这就给存储架构带来了复杂性挑战,“同时存储系统对于性能和功能要求越来越高,比如存储系统要求具备多站点数据动态容灾、秒级快照、高可靠性的数据保护及多协议接口等多种专业功能。”王刚进一步分享道。
存储架构正在发生变迁
面对上述挑战,存储架构必然也会发生变化,王刚重点介绍了三种全新的存储架构,包括全闪存架构、存算一体架构以及存算分离架构。
首先是全闪存架构,针对高IO要求的数据库、虚拟数据库、虚拟桌面等应用场景,同有科技结合西部数据推出了全闪存架构。“通过全闪存架构实现了从上层提供极高速度,底层协议微秒级的延时,可以很好的解决对于高IOPS的极低延时问题。”王刚谈道。
其次是存算一体架构,针对大数据、人工智能等对于高并发要求的应用,就需要存储系统具备极高性能的访问需求,这方面同有科技推出了计算和存储节点融为一体的存算一体架构。
第三是存算分离架构,虽然存算一体的架构具备包括快速读取本地存储数据等优势,但是随着应用和业务的不断融合以及数据量的增加,存算一体架构在扩展性和经济性的方面的挑战成为共识,实践出真知,在真正在实践中,大家已经发现如果把存储和计算分离开,通过软件定义架构的方式来访问数据,更能适应现代化应用和海量数据增长需求。“计算层可以保留部分的高带宽高缓存的业务需求,而更多的温数据和一部分的归档数据,完全可以通过专业存储系统去解决。”王刚谈到。
西部数据也在通过技术创新和产品迭代来适应存储架构的变迁。包括在存储介质上一直在致力于研发更大容量硬盘及性价比更高的企业级SSD。“基于硬盘创新的氦气封装技术,EPMR能量辅助磁记录技术,及三阶磁臂技术,结合闪存创新上的最新的162层3D TLC和QLC的闪存颗粒,西部数据将磁记录技术与iNAND嵌入式闪存技术进行了垂直集成,并对算法和芯片SoC进行了创新性的改进来提高存储容量及性能,推出了OptiNAND技术HC570 22TB的大容量机械硬盘。” 芦浩讲道。
同时基于全闪存的架构,西部数据全新的Ultrastar DC SN650 NVMe SSD系列使用新一代西部数据自研NVMe 1.4b控制器,采用PCIe 4.0接口和西数BiCS5 112层 3D TLC闪存颗粒,容量高达15.36TB,针对云和横向扩展工作负载进行了优化,为云服务、虚拟化以及弹性块、对象或文件存储提供了高容量、更高QoS一致性和更好的利用率。
存算分离的价值和意义
“归根到底,存算分离架构是要解决用户应用需求的。当应用分成热数据、温数据和冷数据的时候,当批处理和流处理同时共存,这些都需要新的大数据架构去适配,这样具备高性能、功能丰富以及更安全的软件定义的分布式存算分离架构成为企业IT架构升级的主流选择。”王刚谈道。
可以看到,存算分离可以实现计算和存储资源的单独扩容,让分散的数据实现集中存储,和统一的数据湖管理。更深层的讲,基于存算分离的架构才能真正实现混合云部署,通过数据存储保留在本地或者私有云上,机器学习等计算资源部署在公有云,助力企业更积极构建以企业数据湖为核心的稳态数据资源服务和以数据计算为核心的敏态数据能力服务,在实现数据治理的基础上实现数据运营。
展望未来,西部数据将继续基于大容量硬盘及高性能、高性价比的企业级SSD产品与同有科技展开深度合作,助力同有科技在存算分离的架构下设计及优化存储产品。最后在节目中,嘉宾们还分享了包括能源行业、科学院校等基于存算分离架构的精彩的案例故事以及氦气大容量硬盘技术解读,欢迎观看完整版视频,了解更全面的内容:https://www.zhiding.cn/special/westerndigital_2022_Toyou
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。