12月11-12日,2018中国存储与数据峰会(DSS2018)在北京国际饭店举办。浪潮存储产品线总经理李辉在现场做了主题为“新数据时代,新存储之道”的演讲。李辉表示:“当前,客户和组织已经走入了一个由数据变化带来的新数据时代,数据在数据形态、 部署环境、应用模式和价值需求四大方面均出现了更为精细化的需求,并在不同行业和场景中出现了更为差异化的体现。在这一时代下,应用不仅是把基础设施的资源价值最大化地挖掘出来,更需要把整个数据资源——无论是关键数据还是沉睡数据的价值都能够最大化地挖掘、贡献出来。”
新数据时代 行业应用场景日益细化带来新挑战
根据IDC预测,随着数据的指数级增长,全球数据总量预计2020年达到44个ZB,中国数据量将达到8060个EB,占全球数据总量的18%。随着数据量的增长,数据类型的多样性和数据源也在增加,因而提高了IT基础设施的复杂性。
5G、云计算、物联网、大数据、人工智能、区块链……不断发展的新技术逐渐让世界连成了一张大网,并驱动了自动驾驶、人脸识别等大量新应用的涌现。而IT新技术的连续性迭代,更加速推动了物理世界与数字世界的融合,构建了一个新数据时代。在新数据时代下,各个垂直行业的业务需求呈现新的特点,并为IT和存储带来新需求特点,存储系统也在架构、容量、性能和管理上面临更为差异化的挑战。
例如,在超大规模的互联网云数据中心和企业的中大型数据中心里,服务器变得越来越多,数据计算集群和处理应用的集群规模都非常大,会用虚拟化技术跑各种各样的应用,在这样的虚拟化环境下,存储需要支撑上万台的物理机和数十万台虚拟机的运行,这成为当今存储碰到的一大挑战。
在AI应用中,要拿到很多原始的数据进行标记、处理,如从视频、图片、语音、文本里拿出数据,从而会拿出很多小文件进行模型训练,有时一个大型AI应用需要处理的小文件会达到万亿级别,这同样对存储的性能提出挑战。
再以行业应用为例,在科研与航空卫星行业,以生物科学研究为代表的科研应用和航空航天卫星技术的持续升级,带来了越来越精细化的应用需求,实时处理、极速响应成为常态。在广电媒资行业,从4K到8K到VR 2K,一方面观众对高品质、零等待的浸入式体验追求了无止境,另一方面短视频、直播平台等新产业发展,亟需广电企业进行多元化融合,以提升用户粘性、实现资源整合和创新。这一切,不仅对存储提出了容量、性能、架构及管理上的新挑战,并且要求供应商必须以场景化应用为核心,驱动产品技术与解决方案的开发。
“场景驱动开发”赋能浪潮超大规模软件定义存储
浪潮聚焦新数据时代的新数据形态、新部署环境、新应用模式和新价值需求的“四新”产业趋势,以超大规模软件定义存储(Large-Scale SDS)满足新数据时代的EB容量、亿级IOPS、弹性架构及智能管理需求。
由于容量和性能能够随着非结构化数据的增长实现线性扩展,软件定义存储将成为新数据时代的主要存储方式。这一观点得到了分析机构的印证。据Gartner调研,目前大约40%的企业数据存储在可横向扩展的企业数据中心或云数据中心,到2022年,这一比例将超过80%。据IDC预测,2017年至2021年,全球软件定义存储(SDS)市场年复合增长率将达到13.5%,2021年营收达到约162亿美元。
基于对新数据时代市场需求的洞察,浪潮积蓄力量持续发力Large-Scale SDS。李辉表示,浪潮SDS在技术上的优势在于,依托“软件定义+硬件重构”理念,面向客户的实际应用,对软件和硬件进行集成测试,并对整个研发过程的性能、可用性、适用性等进行严格控制,实现软硬件紧密协同,最大程度发挥软件定义存储的效能,以“极致容量、极致性能、极致简单”满足新数据时代存储在容量、性能、架构及管理上的需求。
当然,在当今复杂的应用环境下,单纯发力技术,是无法适配和支撑用户大规模海量数据应用的。浪潮SDS可以作为应用场景群和技术场景群的桥梁,以场景为核心深度优化,把场景间的个性需求、场景内的共性需求、及其对应的最优技术实现路线和方案,在浪潮SDS上真正实现,从而保障各种场景的个性化需求真正得到满足。浪潮SDS力图做到“个性化量产”,为各类有个性需求的场景进行定向深度开发和优化,可以针对EB级数据的处理进行定制开发与战略合作。
例如,通过与交通领域合作伙伴在平安城市应用方面的交流,浪潮以插卡的模式,将GPU引用软件定义存储产品中,合作伙伴由此可以抽取图像帧对视频图像进行大数据分析。又如,为满足广电媒资视频云对云数据中心统一管理的需求,浪潮对管理接口进行深度开发。再如,在动漫制作领域,浪潮基于软件定义存储AS13000为用户的动漫影视制作提供了千万级小文件并发的SDS大平台。
翻开浪潮存储的PB级大工程名单,可以看到软件定义存储AS13000实现了在某资源中心一套70PB、某运营商数十套每套PB级系统、某省政务云90个节点、20PB容量、成都三环路视频监控系统中108个节点、20PB容量、广电总局141个节点、10PB的云平台、华强方特5PB、千万级小文件并发性能的动漫制作平台、中石油东方物探34个节点、5PB容量的高性能计算平台的应用部署。
正因为将应用与技术在浪潮的软件定义存储产品上实现了对接,浪潮连续3年浪潮软件定义存储销售额同比增长超100%,在金融、通信、政府、企业、互联网、媒资、医疗、教育等行业,进行了众多大规模部署。2018年,浪潮存储入围Gartner分布式存储魔力象限。
李辉表示,过去3年,浪潮累计投入超过10个亿,倾力开发浪潮新存储,重构原有架构,满足以智慧场景为代表的应用。未来,浪潮存储将继续坚持以“数据与介质的连接者”形象,帮助企业更好的掌握“新数据时代”下的新场景,让企业和组织用好“新”数据,在市场上占得先机。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。