当前,全国各地正在大力推进新基建的建设,这种态势还将继续保持。随着以5G、工业互联网、人工智能等技术为代表的新基建的持续推进,必将带来更为泛在的连接、更加海量的数据、更为多样化的数据类型,以及更为普遍的数据分析和处理需求,这些变化给存储系统带来了巨大的挑战。
在12月18日由新华网与中国科协学会学术部指导、新华网客户端与中国电子学会主办、至顶传媒承办、科技行者与全球移动通信系统协会(GSMA)协办的“2020中国新基建领导力峰会”上,曙光存储事业部副总经理张新凤在其主题演讲中分享了在当前“新基建”环境中,曙光如何通过其海量存储系统助力客户数字化转型的最佳实践,为业界破解存储难题带来新的思考。

曙光存储事业部副总经理张新凤
存储行业新变局
今天我们已经进入一个大数据时代,数据规模正在呈现爆炸性增长,与此同时,数据正在成为众多企业的核心生产要素,在企业数字化转型中数据的基础支撑作用也日益凸显,越来越多的企业通过数据的分析和处理获得竞争优势。
在演讲中张新凤援引了一组IDC的研究结果:2018至2025年全球数据圈将增长5倍以上,届时全球互联的设备将超过1500亿,其中的大部分设备将实时产生数据。
大数据时代的另一个显著特点就是边缘和终端产生的数据量越来越多,随着5G的普及这一势头将有增无减。以自动驾驶汽车为例,其每小时即产生3TB的数据,这还不包括车载设备上的娱乐信息以及GPS数据。随着车与车之间的连接越来越平常,以及植入越来越多模式设别的机器学习以及AI算法,其数据量还将显著增加。
为了应对行业的最新变化,存储行业做出了大量努力。在张新凤看来存储领域有四大趋势值得重点关注:
首先是存储介质的创新。创新集中在两个方向:一个追求更快的存储介质,追求实时性,大量新技术应用创造出更好的性能,如SSD、NVMe;另一个是更大容量,而且是低成本下的高容量,比如量子存储技术,目的是为海量数据廉价存储提供介质。
其次,不同行业对存储呈现完全不同的需求。比如,流媒体应用一般更关注性能抖动;金融证券一般更关注延迟问题等。为了满足不同需求,就需要为之提供软硬一体、定制化的存储系统。
第三,存储的智能化管理需求。存储量的增长带来了运维的复杂,使得存储系统自动预警、自动运维显得越来越关键。
最后是更为海量的数据,这是当前对存储系统最大的挑战之一。大数据、物联网、工业互联网、5G等新技术带来多元化数据爆发性增长,特别是企业存储在本地、边缘或公共云中的作为文件或对象存储的非结构化数据呈现指数级增长。
“以前,我们存储达到PB级别就是很大规模的应用了,而这一两年我们接触了不少单用户的数据规模达到数百PB规模,对于这种海量数据传统存储系统方式是不合适的。”张新凤表示。
潜心打磨,出好的海量存储产品
曙光公司是依托于中科院诞生的一家本土企业,主要为政企客户打造IT基础架构以及各种解决方案和服务。经过20多年发展,曙光目前拥有有七大产品线,其中,存储是其最为核心的两大业务之一(另一项核心业务是服务器)。作为曙光的核心业务,多年曙光持续在存储技术上进行投入,取得了不少技术突破,尤其是在海量存储上。目前,已经建立了一支国内一流的掌握了分布式存储核心技术的团队,拥有两百多项相关技术发明专利。根据IDC的数据,曙光自研的海量分布式存储系统连续7年在国内IDC产品里排名前二。
据张新凤介绍,曙光的海量存储系统架构分三层:最底层是硬件平台,基于完全标准化的x86平台构建,适配英特尔等各种处理器和高速网络产品,比如25GB、100GB、200GB网络;中间是最核心的分布式软件层,其中最关键的是曙光自研的本地磁盘管理系统,其扩展性非常好,性能和可靠性与同类软件相比有质的提升;最上层是应用,包括NFS、FTP等,以满足用户存储不同数据的需要。

“该系统面向海量非结构化数据存储场景全面优化,广泛适用于存在数据共享需求的多种应用领域,如互联网、媒资管理、视频编辑处理等行业或场景。”张新凤表示。
张新凤说,曙光海量存储系统有如下三大核心优势:
第一个是高性能。高性能主要取决于架构本身,这是一个完全集成的架构。同时,单结点性能上也做了优化,可以为追求极致性的用户提供更好的性能。另外,系统还利用了最先进的网络技术并在网络协议上做了大量优化,从而进一步提升了存储性能。
其次,是存储系统的高可靠性。整个系统的可靠性首先来自于单个硬件可靠性,然后结合软件实现了整个存储系统的可靠性,集群、所有固件、所有节点和网络都冗余设计,没有单点故障。
最后,在易管理方面,存储系统植入了智能算法,有新节点加入第一时间识别自动处理,从不需要人员做太多介入管理。同时,可实现多个系统统一管理,一个管理系统可以管理64套集群,这意味着通过一个管理界面可以实现数十个EP级数据的管理。
张新凤介绍,得益于曙光在技术上持续创新,曙光存储系统现在已经在全国3万多家企业中发挥作用,管理数据的容量已经超过10个EB,为众多政客客户的数字化转型发挥了重要作用。
“当今数据存储的需求已经到了一个新的阶段,为了应对海量数据我们需要在技术、在方案上、产品上做出改变,曙光分布式存储系统正是我们做出的探索。”张新凤总结说。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。