日前一部柴静雾霾纪录片《穹顶之下》引发了人们对环境污染的深刻反响。天津、沈阳、成都2014年的空气污染天数分别是197天、152天和125天;石家庄的污染天数更是达到264天,占到全年的72%以上。这些雾霾侵城的镜头,这些数字,把污染防治的重任推到人们面前。基于软件定义和融合架构,浪潮海量存储可提供TB级聚合带宽和EB级的存储空间,敏捷吞吐卫星采集的海量监测数据,成为雾霾防治的数据“利刃”。
浪潮海量存储承载卫星环境监测的海量数据
“看清”雾霾构筑更快捷、更灵活的海量存储是关键
卫星承担着国家对地观测、资源勘探等重要任务,可提供精准的对以雾霾等异常情况的观测数据,成为政府环境治理决策的数据“智囊团”。
随着决策数据要求的精密性增加、以及卫星技术的不断发展,卫星数据采集器的数据规模越来越庞大,对存储设备的容量拓展、传输带宽、可靠性等方面的要求越来越高。
首先,在数据量方面,一些高分卫星可在距离地面约36000公里的地球同步轨道运行,观测面积大,并能长期对某一地区持续观测,其分辨率在50米以内,每十多分钟便能获取一幅图像。卫星每日生成数据量8TB以上,年数据容量达到2.6PB以上。
其次,在存储性能方面,卫星数据采集的原始数据主要为非结构化的文件数据,这些原始数据的接收和处理需要占用巨大的写入带宽资源。根据分析内容和侧重点不同,原始数据的加工处理方法也不同,同一套原始数据经常需要反复读取和处理,对存储设备的读写带宽要求很高。而且,卫星采集器的数据库庞大,前端应用系统对数据的调用开销很大,需要通过有效的方式提高数据库的访问性能,减小前端系统的等待时间。
最后,存储可靠性作为一个老生常谈的话题,在卫星数据存储中同样需要得到充足的保障。
快捷、海量、高可靠卫星海量存储解决方案必备的“三板斧”
根据对卫星数据采集领域的海量存储需求分析,浪潮卫星海量存储整体解决方案框架如下:
浪潮卫星海量存储解决方案架构图
首先,对于卫星海量存储的大容量需求,浪潮海量存储系统支持多控制器的横向扩展,实现了系统容量、性能的动态扩展,通过最大5000个控制器的规模提供EB级海量存储空间存储能力,有效保证了卫星数据的未来8-10年的存储容量需求。
同时,在容量扩展性方面,浪潮海量存储也有独到之处。卫星采集数据是海量的,且存储容量和存储性能随着业务量的增长而增长。通常一套系统的建设初期数据存储和处理量不大,但未来会出现爆发式的增长。如果采用一次性投入的方式,前期会造成较大的资源浪费,后期存储系统容量及性能不足的时候又较难扩展,因此,较合理及高性价比的方案是采用分批建设。浪潮海量存储系统具有很高的可扩展性,支持在线扩展且无需对中断业务,做到存储容量和性能的在线线性扩展。
浪潮海量存储系统
其次,对于卫星大规模数据的存储性能需求,浪潮海量存储系统基于横向动态扩展控制器架构设计的浪潮海量存储系统,通过全局缓存、最先进的FDR Infiniband数据通信网络、全交换、无阻塞的存储交换网络有效提供数百GB聚合带宽,满足了卫星数据接收、处理的高并发IO需求;同时,浪潮海量存储系统的自动分层功能可以把热点数据迁移到FLASH缓存或SSD高性能存储池中,实现热点数据快速访问,也可以把文件按照大小进行分级,卫星下传小文件放在IOPS更高的磁盘池中,实现数据分层。其中闪存层,可以提供最大程度的性能提升、支持高性能OLTP系统;SAS层满足数据库中的各个不同层级和虚拟资源的数据存储;大容量存储层,实现对归档数据或冷数据的存储。
再次,对于卫星大规模数据的高可靠需求,浪潮海量存储系统利用横向扩展多控制器架构、全局共享缓存、全交换网络和多重冗余的数据保护机制,消除了海量存储系统的单点故障。通过在线数据的快速复制、已接收数据的近线存储、冷数据的备份实现了卫星数据的三级存储备份保护,完美满足卫星应用中的在线、近线、备份三级存储要求;
浪潮海量存储具有EB级容量和TB级带宽
同时,浪潮海量存储系统支持数据跨数据中心、跨机房、机柜的容灾,一份数据被写入多个数据中心中,支持掉电保护,为数据的安全可靠提供强大支持,跨中心的冗余保护避免单数据中心重要数据因意外灾害导致的数据丢失,为卫星数据中心提供强有力的保障。
三级存储浪潮海量存储承载“高分卫星”数据
“高分卫星”项目地面系统是国家高分辨率对地观测系统的重要组成部分,其主要任务是通过搭建一体化的地面系统体系架构,在充分利用现有技术能力和基础设施条件的基础上进行优化,增强“高分卫星”地面系统对地观测卫星的数据接收、综合处理、数据库与管理和分发服务等功能,提升运营和服务能力。
结合卫星中心数据业务的特点,浪潮卫星海量存储解决方案将整个存储系统分为三个部分,备份存储区子系统、近线存储区子系统和在线存储区子系统,三个存储子系统统一由浪潮海量存储系统管理,实现对数据进行自动调动迁移和保存。
分别为南水北调3D路线图、青藏铁路二期影像图、北川县影像图、鄂尔多斯影像图
睁着眼睛做决策
浪潮卫星海量数据整体解决方案,针对卫星数据采集的行业应用特点,提供了多种类型的存储资源,支持Windows/Unix/Linux等异构平台,存储系统具有大容量、高并发、高带宽、高性能、高可扩展性等典型特征,满足卫星采集器的数据存储和处理分析需求,还通过分级存储、自动精简配置等方式提高存储资源的利用效率、降低投入和运行成本。浪潮海量存储系统可与数据处理系统、前端应用系统等无缝结合,提供统一的监控和管理平台,改善客户的管理和使用体验。
“以前是闭着眼睛干活,现在是睁着眼睛做决策。浪潮海量存储运行后,获得和使用卫星对地监测的海量数据更加高效,对雾霾等异常环境监测更加精准。一句话,利用卫星数据使我们的眼睛更明亮,看得更清楚,决策就更有力。”某卫星数据中心信息化负责人说。
好文章,需要你的鼓励
随着AI模型规模不断扩大,GPU内存容量已成为瓶颈。Phison和Sandisk分别提出了软硬件解决方案:Phison的aiDAPTIV+软件通过创建跨GPU内存、CPU内存和SSD的虚拟内存池,支持高达700亿参数的模型;而Sandisk的高带宽闪存(HBF)则采用类似HBM的硬件架构,通过TSV连接器将NAND闪存与GPU紧密集成。Phison方案适合中小企业和边缘系统,Sandisk方案则针对大型GPU服务器,两种技术可共存互补。
上海AI实验库推出YUME系统,用户只需输入一张图片就能创建可键盘控制的虚拟世界。该系统采用创新的运动量化技术,将复杂的三维控制简化为WASD键操作,并通过智能记忆机制实现无限长度的世界探索。系统具备强大的跨风格适应能力,不仅能处理真实场景,还能重现动漫、游戏等各种艺术风格的虚拟世界,为虚拟现实和交互娱乐领域提供了全新的技术路径。
法国AI初创公司Mistral AI发布了首个大语言模型全面生命周期评估,量化了AI的环境代价。其Mistral Large 2模型训练产生20,400吨二氧化碳当量,消耗281,000立方米水。运营阶段占环境影响85%,远超硬件制造成本。研究表明地理位置和模型大小显著影响碳足迹,企业可通过选择适当规模模型、批处理技术和清洁能源部署来减少环境影响。这一透明度为企业AI采购决策提供了新的评估标准。
上海AI实验室研究团队开发了革命性的AI编程验证方法,让大语言模型能够在最小人工干预下自动生成和验证程序规范。该方法摒弃传统的人工标注训练,采用强化学习让模型在形式化语言空间中自主探索,在Dafny编程验证任务上显著超越现有方法,为AI自主学习开辟新道路。