在日前于IPF2021浪潮数据中心合作伙伴大会期间举办的数据存储论坛上,西部数据公司副总裁兼中国区业务总经理刘钢做了题为“创新存储架构,赋能智算浪潮”的主题演讲,阐释了西部数据公司在大数据时代的存储应对之道。
西部数据公司副总裁兼中国区业务总经理刘钢
大数据时代存储面临挑战
在如今的数字经济时代,数据作为企业的宝贵资产,已经成为驱动企业发展的核心生产力要素。伴随以人工智能、物联网、5G等为代表的数字技术的不断发展和落地,其带来的是数据量级的激烈增长。事实上,对于企业用户而言,要存储这些宝贵资产也面临着极大挑战。
刘钢在演讲中谈到,如今数据的来源并不仅仅是人,也包含了成千上万的机器设备,以及数据中心所产生的数据。而次生数据的放大效应也会产生更巨量的数据。在未来几年中,这些新增数据量加在一起会达到惊人的3ZB。
而即便数据增长如此快速,但最终也只有1.5%的数据被存储下来。因为对于数据存储而言,企业用户既存在海量的存储需求,也存在快速访问寻求,同时也对于存储的成本和功耗提出更高的要求。
西部数据的应对之道:创新存储架构
当前数据存放的关键技术基本可分为两种,其一是HDD,用于存放大数据;其二是SSD,对应着快数据的存放。刘钢表示,为了应对大数据时代的上述问题及挑战,仅凭一种存储技术显然难以做到。西部数据所做的是对存储架构进行创新。
由于数据对于存储的需求并不相同,有着不同的分层。而无论是SSD还是HDD,当对数据进行分区,其在存储盘中引发的效应就会增强。在西部数据看来,创新的存储架构包括三种:
第一种存储架构是分布式存储。相对于传统中心化的存储方法WEB2.0,WEB3.0是去中心化的分布式存储方法。去中心化带来新的存储架构,同时也带来了存储在成本和容量方面的优势。
第二种存储架构是分层存储。数据分为不同层,根据数据对于存储的容量、时延等指标的需求,西部数据将其分为极热存储、热存储、温存储、冷存储和极冷存储五层。不同的数据需求需要对应不同的存储设备。
例如冷存储大容量盘可达到18TB,极冷存储则可引入多次读取等技术;而在快存储中,用户希望快速访问高价值数据,进行业务的预测或决策等,因此可以应用SSD解决。
值得一提的是,尤其是对于互联网领域云存储而言,HDD容量密度的提升可以降低整体数据中心的部署及运营成本。比如在配置不变的前提下,将HDD密度从14TB提升至18TB,则可以降低22%的服务器使用,单位功耗则会降低21%。因此,许多特别是互联网服务商多会快速跟进最新的存储容量。
第三种存储架构是分区存储。SSD中往往会设有一个预留空间(7.68TB为7%,6.4TB为28%),其很多时候会进行数据垃圾的收集。而在ZNS SSD中,预留空间容量为零,但采用了新的技术进行分区处理。ZNS SSD带来的一大好处是,垃圾数据收集时并没有拉低整体存储的性能,同时也降低了成本。
在美国健康数据管理服务商Qumulo应用案例中,其采用西部数据Ultrastar SN640 7.68TB NVMe SSD之后,每日可读取和分析高达2PB的数据,数据分析量提升20倍,极大推进了疫苗开发工作以及对疫情的控制。
另外,IPFS通过采用(4U60+18T) 相比传统存储方案(4U36+16T)让机柜空间减少46%,电源功耗降低36%,实现TCO成本的降低。
西部数据的三大优势
应该说,在企业用户的数据存储中,SSD对于用户整体存储的成本和性能的影响至关重要。而对于SSD供应商而言,要极大降低SSD成本,拥有自己的大规模产能非常重要。
会上,刘钢强调了西部数据在SSD领域拥有的三大核心优势:
第一, 西部数据拥有全球领先的SSD产能优势。在这方面,西部数据与铠侠可以占到全球产能三分之一的份额。
第二, 西部数据拥有领先的SSD技术优势。今年2月,西部数据发布了最新第六代162层3D闪存技术。其横向单元阵列密度较上一代技术提高了约10%;与112层堆叠技术相比,第六代技术将晶圆尺寸有效减小40%,大大优化成本;与上一代产品相比,第六代程序性能提升2.4倍,读取延迟降低约10%,I/O性能提高约66%。
第三, 西部数据拥有垂直企业级固态硬盘纵向集成优势。例如在全球最大电商之一应用案例中,其对于稳定性的要求是上下10%波动,而西部数据相应方案的实测波动仅为0.11%。
除了全球市场,西部数据也与中国企业巨头保持了紧密的合作。比如西部数据与浪潮一直存在非常多的合作。
刘钢表示,在面临大数据时代挑战时,应对之道是创新的存储架构,包括分布式存储、分层存储和分区存储。西部数据不仅提供新的技术来不断创新和优化存储产品及解决方案,也会携手合作伙伴共同创新企业级存储市场的未来。
西部数据公司副总裁兼中国区业务总经理刘钢
“高速发展的人工智能在对数字经济产生巨大赋能和推动的同时,也推动整个计算产业向'智慧计算'方向演进,巨量模型和海量数据,对算力和存储的需求呈指数级增长。我们很高兴能持续深化与浪潮的合作,结合双方前沿科技与产品的独特优势,协力打造出高性能、低成本、且兼具稳定性与扩展性等特点的卓越解决方案,优化资源配置,赋能智慧计算。未来,西部数据将与浪潮加强纵深合作,不断以创新的数据存储架构和解决方案,应对市场多样化的需求,并携手生态系统中的各方伙伴共同推动智能产业的转型与发展,为行业用户创造更多价值。”刘钢如是说。
好文章,需要你的鼓励
还在为渲染一个3D模型等上几小时吗?还在纠结移动办公就得牺牲性能吗?当AI遇上专业工作站,传统设计流程的游戏规则正在被改写。
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。
据报道,OpenAI正与亚马逊洽谈至少100亿美元的融资。亚马逊此前已是Anthropic的最大投资者,并为其建设了110亿美元的数据中心园区。若融资达成,OpenAI将采用AWS的Trainium系列AI芯片。Trainium3采用三纳米工艺,配备八核心和32MB SRAM内存。AWS可将数千台服务器连接成拥有百万芯片的集群。报道未透露具体估值,但OpenAI最近一次二次出售估值已达5000亿美元。
这项由伊利诺伊大学香槟分校等四所院校联合完成的研究,提出了名为DaSH的层次化数据选择方法。该方法突破了传统数据选择只关注单个样本的局限,通过建模数据的天然层次结构,实现了更智能高效的数据集选择。在两个公开基准测试中,DaSH相比现有方法提升了高达26.2%的准确率,同时大幅减少了所需的探索步数。