(北京,2014年10月23日)浪潮集团今天在北京举行 “Inspur World 2014” 浪潮技术与应用峰会,本届峰会以“数聚智慧,云领未来”为主题,来自全国的近3000名政府、企业和垂直行业的客户,以及技术专家与业内人士参加了本次盛会。
在此次大会的主会场上浪潮集团执行总裁王恩东做了题为《开放、融合的数据中心》演讲,对数据中心的挑战发表了自己的观点,并对融合架构的核心理念、技术路线和融合架构产品及最佳实践进行了介绍。
云数据中心的挑战
物联网、云计算、大数据、移动互联网等新兴技术使得用户数量不断增加、数据规模不断扩大,给数据中心带来的压力也越来越大,进一步推动了数据中心向集中化、规模化发展,一方面表现在单一数据中心规模持续增长,另一方面5000台、10000台以上的大规模、超大规模数据中心的比例也增长迅速。那么规模的不断扩大,给数据中心带来了扩展、效率、能耗、安全等诸多问题和挑战。
首先是扩展性问题,传统数据中心内部的设备处于分离状态,相互间互联的网络带宽比板内或设备内的互联带宽低一到两个数量级,因此,当数据中心向外提供服务时,设备间的网络带宽通常成为系统性能的瓶颈。此外,设备间往往采用TCP/IP协议进行通信,协议层次众多,复杂度也远远高于设备内和板内的互联协议。具体来说,CPU和CPU、CPU和内存之前互联是通过QPI、CPU和IO之间互联是通过PCIE,IO之间互联是TCP/IP,带宽以此降低一个数量级以上,而协议的复杂度越来越高,以至于无法通过硬件实现,只能通过软件。综合以上两点可以看出,如何增加互联带宽和降低协议复杂度将是提高数据中心扩展性的两个非常重要的挑战。
第二,传统架构中设备各自的资源处于隔离状态,使得资源共享仅限于设备内。虽然当前广泛采用的虚拟化技术能将设备的资源利用率从10%左右提高到60%,但由于设备间的虚拟化调度的开销仍然很大,实际上很多时候资源并不能得到按需利用,资源利用率实际也就只能在这个水平上,如果想要进一步提高,还需要进一步压缩设备之间的距离。
同时,而不同设备间的利用率更是不均衡。存储的计算资源服务器无法利用,服务器的存储资源存储设备无法使用。例如,一个存储设备可能硬盘的利用率非常高,而CPU和内存利用率低,而一个服务器的CPU和内存利用率高,硬盘利用率低,相互间的资源没有得到充分共享和高效利用。
第三,能耗是数据中心面临的越来越突出的问题。据统计,一个10万台规模的数据中心每年的功耗成本最高能达到4亿多人民币,差不多要耗掉一个中等规模水电厂的发电量。在过去这些年,虽然有很多技术和改进措施用来降低PUE值,也有很多数据中心从2.0降到1.5,非IT能耗依然突出,还需进一步降低。此外,用于IT设备部分的能耗也不是都被充分有效利用了,能耗问题还是非常严重,例如,拿CPU和GPU相比,针对图形类应用,在相同的能力下,CPU这种通用型器件比GPU这种专业化器件功耗更大,成本也高的多。
最后,随着数据中心的规模发展和云服务的普及,传统的安全问题并未得到解决,而云数据中心所面临新的安全问题更加严峻。首先,木马、病毒、系统后门等传统攻击手段无时无刻不在威胁着数据的安全和隐私,云数据中心更容易面临高级持续性威胁,APT。其次,由于云数据中心敏感数据高度集中,一旦遭受入侵便容易产生比以往更加严重的后果。
融合架构技术路线
关于融合架构的技术路线,王恩东认为融合架构可以从硬件和软件演变和特征两个层面、分三个阶段进行。
第一阶段,基于整机柜设计思想,实现散热、电源、管理功能等非IT资源部分的集中化和模块化,并利用软件虚拟化技术实现计算、存储等IT资源的虚拟化和集中管理。这一阶段产品形态大家比较熟悉,硬件上来说也就是把服务器当作一台计算机,软件上就是虚拟化。
第二阶段,进一步将非计算部分的存储、网络等IO设备进行池化,机柜内采用硅光电等新兴通信技术进行高速互联,并以软件定义的计算、软件定义的存储和软件定义的网络来满足业务需求。也就是硬件上将整机柜当作一台计算机,并实现完全的软件定义。
第三阶段是最终将CPU、内存等等所有的IT资源完全池化,从硬件上可实现任意组合,根据应用需求智能地分配和组合相资源,实现完全意义上业务驱动的软件定义数据中心。也就是硬件上将整个数据中心当作一台计算机,软件上实现业务驱动和应用感知。
基于上述融合架构的技术路线,浪潮形成自己的产品路线图。
第一代融合架构的产品包括 SmartRack、K1、海量存储和云海OS,这些产品已经全部上市。
第二代融合架构的产品包括关键主机kanas、Smart Modular Center和云海OS G2(第二代),这些产品有的即将发布,有的正在研发。
第三代融合架构的产品是我们面向未来云数据中心预研和规划的产品形态,预计包括面向融合架构的数据中心产品Smart Data Center和云海OS G3(第三代)。
这三代产品构成了浪潮完整的融合架构产品路线图,当前浪潮已经完成了融合架构的第一代产品,正在全力研发第二代产品。
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。