近年来,中国数字经济一直保持着高速发展。2020年,我国数字经济规模占GDP比重已近四成。根据IDC预测,全球数据总量将会从2020年的50ZB快速增长到2025年的175ZB。届时,中国将成为全球最大数据圈,占全球数据圈的27.8%,超过美国,超过欧洲、中东及非洲数据圈的总和。


数字经济时代,数据作为基础性资源和战略性资源,对于各行各业的发展和国家整体治理水平的提升,都将产生深远的影响。2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》公布,中央首次明确“数据成为继土地、劳动力、资本和技术之外的第五大生产要素”——这代表着数据要素市场化配置已上升为国家政策。中国正在成为拥有数据这种新型生产资料的超级大国。
然而,承载数据这一关键生产要素的“数据基础设施”,是否能够让数据存得下、存得高效、存得安全可靠,并让其发挥更大价值,还身负如下“四宗罪”。
头一宗:存储/计算投资比例严重失衡,“数据基础设施”规模小
数字世界是现实世界的数字孪生,数据作为载体,分为数据采集、传输、计算和存储,在数据采集、传输、计算的建设过程中,不仅诞生了众多千亿市值的巨无霸公司,也催生了如5G等万亿产业链,然而在数据存储建设方面却面临着现实的尴尬。
一直以来,对于数据的计算和存储资源,在建设过程中很多是独立开展的,被认为是弱耦合关系。但实际上两者内在联系紧密,因为数据是计算的源头,数据的处理需要时刻与存储系统紧密配合。可以说,数据的规模和特点,既决定了计算资源如何布局和建设,也决定了存储资源如何布局和建设。
通过研究欧美等发达国家的存储/计算投资比例,可以发现他们在二者之间做到了比较好地兼顾和平衡:美国在存储、计算上的投资比例为1:2,欧洲则为1:1.5。相比而言,中国在存储、计算上的投资比例仅为1:3.3,非常明显地重计算、轻存储。这样的建设后果是,中国数字经济在高速发展有了强大的计算资源支撑,但是对应的存储资源却日渐捉襟见肘,存储很快会成为中国数字经济发展的重大短板,影响整体发展节奏。
存储/计算投资比 – from Gartner

第二宗:闪存占比不到美国一半,“数据基础设施”标准低
通过对代表先进生产力的全闪存存储和代表传统生产力的机械存储投资比例进行比较发现,中国在2020年的全闪存投资占比为24.7%,不到美国52.8%的一半,总投资额还不到美国四分之一。
全闪存投资占比 – from Gartner

这个短板不尽快解决,将会极大阻碍数据要素的价值发挥,阻碍中国数字经济的高速发展。以SSD盘为核心的全闪存存储优势,已经得到行业的普遍认同,亟需政策引导:
1) 性能上,全闪存存储每秒读写次数提升40倍以上,一个请求的时延有数十倍的下降,优势非常明显,能更好地适配多类新兴业务的高吞吐、低时延的需求;
2) 安全可靠性上,不同于传统机械存储是通过磁头读取盘片来完成数据读写,SSD盘没有盘片,环境适应能力更强,只要其芯片不受到外形挤压产生形变,数据就能获得安全的保存。据相关数据统计,全闪存存储可靠性有数量级提升;
3) 运维及投资成本上,传统机械存储需要配置几十个磁盘机柜、上万块HDD盘,而同样容量采用全闪存存储仅需要几个机柜,空间优势明显。此外,据IDC数据统计,2020年SSD盘的有效容量单价已小于SAS HDD盘,大规模替换机械存储已经是大势所趋。
第三宗:数据灾备投资比例仅为美国1/3,“数据基础设施”安全隐患大
无灾备不数据。数字经济时代,每一个人、每一个家庭、每一个企业都越来越离不开数据,尤其是金融、医疗、政务等涉及国计民生的基础性行业更是如此,业务一刻也不能等、不能停,数据一点都不能丢。据统计,没有实施灾难备份措施的企业,60%将在灾难后2至3年间破产,在数据系统遭到破坏的2天内所受损失为日营业额的50%,关键数据丢失也可能会给企业致命一击。
但现实情况是,目前中国的数据保护投资比例仅有欧美的1/3水平,美国企业数据灾备覆盖率是我国2.6倍,欧洲是我国的2.4倍。我国灾备建设水平远低于欧美,“数据基础设施”的安全隐患巨大,亟待引起足够重视。
灾备投资数据 – from Gartner

灾备覆盖率 – from Global Data Protection Index-Cloud Environments March 2020

第四宗:传统机械存储能耗高,“数据基础设施”双碳目标达成难
根据《中国数据中心可再生能源应用发展报告(2020)》,2019年我国数据中心行业耗电总量约为600-700亿千瓦时,占全国全社会用电量的0.8%-1%。预计到2030年,我国数据中心机架总规模将在2019年基础上增加1-2倍,能源消耗量也将翻一番,达到社会总用电量的1.5%-2%。
按照国家对数据中心PUE高标准建设要求,数据存储能耗占比将会上升到30%,成为双碳目标达成的主要矛盾之一。因此,对数据存储的低碳化改造,势不可挡。
其中,数据存储部分的低碳化主要是对存储介质进行替换。据测算,每更换一块HDD盘到SSD盘,相当于植树150颗,相当于3360个家庭熄灯一小时,绿色节能效果明显。据测算,我国的数据存储从HDD盘全部替换为SSD盘,可降低整个数据中心能耗的21%,每年节约能耗约210亿千瓦时,相当于1.5个葛洲坝发电量。
三管齐下,开启“数据新基建”新时代
2021年5月,国家发展改革委、网信办、工信部、国家能源局四部门联合印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出布局全国一体化算力网络国家枢纽节点,开展“东数西算”示范工程,实现数据中心绿色高质量发展。
基于上述有关数据基础设施的洞察和分析,我国面向未来的“数据新基建”建设,需要从政策引导和具体实施策略上从如下三个方面着手,尽快解决存在的短板和问题:
第一、均衡存算投资比例。资源投入要够用,但不能单方面过度建设造成空载浪费。以发达国家现状和趋势为参考,将数据的存储和计算建设结合起来,综合评估投资合理性,均衡发展存储和算力。当前应将补齐存储投入短板作为优先考虑的重点。
第二、提升闪存占比。高标准建设数据存储系统,优先考虑全闪存存储,将闪存比例提升到50%以上。这不仅能从性能、可靠性上更好满足未来多样性业务的不确定性要求,还能让数据中心更加节能环保、低碳运行,实现绿色高质量发展。
第三、消除安全隐患。重视数据存储灾备建设,大幅提升资源投入,补齐以往建设不足并高标准要求新建系统。将不确定风险转化为确定性的可持续发展保障,转危为安,让数据安全可靠。
综上所述,“数据新基建”是未来数字经济的关键组成部分,大力发展“数据新基建”,让飞速增长的数据存得下、存得高效、存得安全放心和绿色环保,更好地发挥数据价值,才能为我们这个最大的数据圈高速发展提供坚实的数据底座。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。