近段时间,“东数西算”成为被高度关注的热点话题。何谓东数西算?数据中心为何成为中国数字经济高速发展的关键?什么技术能够支撑起数字经济强国梦?又是什么技术霸气尽显、王者归来?本文将抽丝剥茧,解答这些疑问。
何谓“东数西算”?
日前,建设“全国一体化算力网络国家枢纽节点”的国家级战略工程——“东数西算”正式启动。这是继西气东输、西电东送、南水北调等全国性资源、能源跨区域调配工程后的又一国家级战略工程,明确提出将布局建设八个全国一体化算力网络国家枢纽节点,对于优化数据中心布局、推动中国数字经济和西部地区发展意义重大。
“东数西算”为哪般?本质是因为供给失衡。“东数西算”通过构建类似于“西气东输”的“信息通道”,把东部的数据“输送”到西部进行存储和计算,在西部建立国家算力枢纽节点,改善数字基础设施不平衡的布局,发挥数据资本化的最优价值。可以说,数据是数字经济的核心要素,数据中心则是数字经济的“底座”。
数据中心扛鼎中国数字经济
如何能高效优化我国的算力基础设施的布局,推动数字经济高速发展?数据作为数字经济时代重要的生产资料、基础性资源和战略性资源,其承接的载体起到至关重要的作用。
数字化转型,不仅仅是社会经济的转型,也是整个社会运行模式的全面变革。据《中国数字经济发展白皮书(2021年)》统计,2020年中国数字经济规模达39.2万亿元,占GDP比重达38.6%。随着各行业数字化转型升级进度加快,全社会数据总量爆发式增长,中国数据圈将在2025年增至48.6ZB,占全球27.8%,成为全球最大数据圈。数据洪流的到来进一步驱动了数据价值链的成熟,进而驱动企业的决策和创新,获取数字红利。数据中心是支撑数字经济高质量发展的关键基础设施,具有重要的战略性和基础性地位。

图表1:数字经济各产业发展无不是以数据为基础
机械硬盘能否支撑起数字经济强国梦?
随着人工智能、物联网、云计算、边缘计算等新兴技术,各行业数字化转型升级进度加快,中国将在2025年成为全球最大数据圈。如何科学合理的获取、存储、分析以及利用数据是我国在数字文明时代成为全球领先的数字经济强国的最有效途径。
当前数据的承载方式主要为磁介质的机械硬盘和闪存介质的闪存盘。从性能上来说,基于闪存盘要比同级别机械盘的存储系统性能有指数级提升,这一点优势突出。从能耗的角度来说,机械硬盘在使用时,单位容量功耗明显要高于闪存盘。最后从可靠性角度对比,闪存盘内部没有机械部件,所以使用时即便高速移动甚至震动,一般也不影响,但是机械硬盘却非常怕震动,特别是在使用时遭遇撞击或震动,极有可能发生损坏。
对于大多数客户目前正在犹豫闪存盘,主要还是考虑到其可靠性和价格。闪存存储主要通过部件、系统、解决方案三级可靠性设计和实现。以我国领先的存储厂商华为为例,闪存盘内部实现了闪存颗粒内部、闪存颗粒间的两级可靠性方案,实现芯片级的失效数据保护;多控全冗余架构、创新的镜像三副本、RAID 2.0+及RAID-TP等技术,使得系统无单点、双点故障、能够容忍3盘同时失效;免网关双活,实现站点发生事故或者灾难情况下业务 RTO=0和RPO=0,业务连续性不受影响。目前传统机械硬盘仍是许多企业的储存选项,因其总拥有成本低于闪存盘,因而可以花费较少的费用。不过最新数据表明,到了2022 年时,闪存盘与机械硬盘的TCO将会黄金交叉,意味采购闪存盘的花费将更少。
根据Gartner近五年数据中心数据载体的分析统计(见图表2),美国数据中心的闪存半导体介质容量占比是中国的2.2倍(53% vs 24%),中国的闪存介质普及率还很低,仍然以机械硬盘为数据主流载体媒介。中美数据中心的闪存介质容量占比与中美GDP的数字经济占比(见图表3)大体相当。

图表2:闪存半导体介质容量占比

图表3:GDP“数字经济占比”对比图
时代呼唤英雄,闪存存储舍我其谁?
面向未来,我国存储的处理能力与数据经济发展速度不匹配已初现端倪,机械硬盘难以支撑成为全球领先的数字化大国。科技创新需要合适的时间窗口和成长土壤,人类历史发展的重要阶段,如农耕文明、工业文明的逐步演进,将这一点体现得淋漓尽致。目前人们正处于一个新时代的交叠期。数字文明会为人们的生活带来更多便利。数字科技的创新时机已经到来,科技将以更强大的力量改变世界。
闪存介质是数字文明的先进引擎
对于闪存介质有高密度、高可靠、低延迟、低能耗等特点。从数据全生命周期角度来说,硬件能力的提升给数据流通带来巨大的变化,存储介质由传统磁介质转向闪存介质,机械硬盘转向闪存盘。随着闪存盘的快速发展,数据访问闪存盘比机械硬盘快1000倍以上,时延下降到原来的几十分之一;存储通信协议的发展,把存储介质变化的效率和网络带宽提升的作用充分发挥,这些变化,促使了计算机系统处理能力的大幅提升,优化了数据中心算力与存力的基础能力结构,加速了数据资源的快速流通。
NVMe over RoCE存储网络释放了闪存介质的枷锁
放眼整个数据中心,闪存介质已经加速了核心业务的数据流动。伴随着人工智能、HPDA、大数据等多样负载,单纯的扩大数据中心闪存介质容量占比已经无法充分释放闪存介质的能量。数据中心的网络带宽的枷锁已经无法最大程度的释放闪存介质的性能潜力,更快的介质和协议呼唤更快的网络。NVMe over RoCE存储网络相比传统FC存储网络,提供10倍以上的吞吐带宽和更低的时延,同时还兼具IP易管理的优势,让闪存介质进入了新的时代。新型数据中心将围绕数据的全生命周期,从数据计算、传输、存储,高效全面的优化“新算力”,推进我国数字经济高速发展。
闪存占比是牵引数据中心迈向“双碳”的核心指标
在相同容量下,闪存盘相比机械硬盘的能耗降低70%,空间占用也会节省50%。如果按照数据中心的闪存比例参照当前美国的53%的闪存比例建设,那么到2025年将累计节约750亿千瓦时耗能,相当于4个葛洲坝的发电量,新建数据中心的能耗将下降11%。
对比国外先进经济体,应对我国数字经济高速发展的要求,新型数据中心建设闪存半导体介质容量占比至少需要达到50%以上,才能更好的牵引我国数据中心迈向“双碳”目标。
今天,大力发展存储产业已成为产业共识,加速“磁退硅进”已成为业界趋势。采用全闪存存储将重构我国数字经济底座架构,提升“新算力”能效,加速数字经济高速发展。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。