日前一部柴静雾霾纪录片《穹顶之下》引发了人们对环境污染的深刻反响。天津、沈阳、成都2014年的空气污染天数分别是197天、152天和125天;石家庄的污染天数更是达到264天,占到全年的72%以上。这些雾霾侵城的镜头,这些数字,把污染防治的重任推到人们面前。基于软件定义和融合架构,浪潮海量存储可提供TB级聚合带宽和EB级的存储空间,敏捷吞吐卫星采集的海量监测数据,成为雾霾防治的数据“利刃”。
浪潮海量存储承载卫星环境监测的海量数据
“看清”雾霾构筑更快捷、更灵活的海量存储是关键
卫星承担着国家对地观测、资源勘探等重要任务,可提供精准的对以雾霾等异常情况的观测数据,成为政府环境治理决策的数据“智囊团”。
随着决策数据要求的精密性增加、以及卫星技术的不断发展,卫星数据采集器的数据规模越来越庞大,对存储设备的容量拓展、传输带宽、可靠性等方面的要求越来越高。
首先,在数据量方面,一些高分卫星可在距离地面约36000公里的地球同步轨道运行,观测面积大,并能长期对某一地区持续观测,其分辨率在50米以内,每十多分钟便能获取一幅图像。卫星每日生成数据量8TB以上,年数据容量达到2.6PB以上。
其次,在存储性能方面,卫星数据采集的原始数据主要为非结构化的文件数据,这些原始数据的接收和处理需要占用巨大的写入带宽资源。根据分析内容和侧重点不同,原始数据的加工处理方法也不同,同一套原始数据经常需要反复读取和处理,对存储设备的读写带宽要求很高。而且,卫星采集器的数据库庞大,前端应用系统对数据的调用开销很大,需要通过有效的方式提高数据库的访问性能,减小前端系统的等待时间。
最后,存储可靠性作为一个老生常谈的话题,在卫星数据存储中同样需要得到充足的保障。
快捷、海量、高可靠 卫星海量存储解决方案必备的“三板斧”
根据对卫星数据采集领域的海量存储需求分析,浪潮卫星海量存储整体解决方案框架如下:
浪潮卫星海量存储解决方案架构图
首先,对于卫星海量存储的大容量需求,浪潮海量存储系统支持多控制器的横向扩展,实现了系统容量、性能的动态扩展,通过最大5000个控制器的规模提供EB级海量存储空间存储能力,有效保证了卫星数据未来8-10年的存储容量需求。
同时,在容量扩展性方面,浪潮海量存储也有独到之处。卫星采集数据是海量的,且存储容量和存储性能随着业务量的增长而增长。通常一套系统的建设初期数据存储和处理量不大,但未来会出现爆发式的增长。如果采用一次性投入的方式,前期会造成较大的资源浪费,后期存储系统容量及性能不足的时候又较难扩展,因此,较合理及高性价比的方案是采用分批建设。浪潮海量存储系统具有很高的可扩展性,支持在线扩展且无需对中断业务,做到存储容量和性能的在线线性扩展。
浪潮海量存储系统
其次,对于卫星大规模数据的存储性能需求,浪潮海量存储系统基于横向动态扩展控制器架构设计,全交换、无阻塞的存储交换网络可提供数百GB聚合带宽,满足了卫星数据接收、处理的高并发IO需求;同时,浪潮海量存储系统的自动分层功能可以把热点数据迁移到FLASH缓存或SSD高性能存储池中,实现热点数据快速访问,也可以把文件按照大小进行分级,卫星下传小文件放在IOPS更高的磁盘池中,实现数据分层。其中闪存层,可以提供最大程度的性能提升、支持高性能OLTP系统;SAS层满足数据库中的各个不同层级和虚拟资源的数据存储;大容量存储层,实现对归档数据或冷数据的存储。
再次,对于卫星大规模数据的高可靠需求,浪潮海量存储系统利用横向扩展多控制器架构、全局共享缓存、全交换网络和多重冗余的数据保护机制,消除了海量存储系统的单点故障。通过在线数据的快速复制、已接收数据的近线存储、冷数据的备份实现了卫星数据的三级存储备份保护,完美满足卫星应用中的在线、近线、备份三级存储要求;
浪潮海量存储具有EB级容量和TB级带宽
同时,浪潮海量存储系统支持数据跨数据中心、跨机房、机柜的容灾,一份数据被写入多个数据中心中,支持掉电保护,为数据的安全可靠提供强大支持,跨中心的冗余保护避免单数据中心重要数据因意外灾害导致的数据丢失,为卫星数据中心提供强有力的保障。
三级存储浪潮海量存储承载“高分卫星”数据
“高分卫星”项目地面系统是国家高分辨率对地观测系统的重要组成部分,其主要任务是通过搭建一体化的地面系统体系架构,在充分利用现有技术能力和基础设施条件的基础上进行优化,增强“高分卫星”地面系统对地观测卫星的数据接收、综合处理、数据库与管理和分发服务等功能,提升运营和服务能力。
结合卫星中心数据业务的特点,浪潮卫星海量存储解决方案将整个存储系统分为三个部分,备份存储区子系统、近线存储区子系统和在线存储区子系统,三个存储子系统统一由浪潮海量存储系统管理,实现对数据进行自动调动迁移和保存。
睁着眼睛做决策
浪潮卫星海量数据整体解决方案,针对卫星数据采集的行业应用特点,提供了多种类型的存储资源,支持Windows/Unix/Linux等异构平台,存储系统具有大容量、高并发、高带宽、高性能、高可扩展性等典型特征,满足卫星采集器的数据存储和处理分析需求,还通过分级存储、自动精简配置等方式提高存储资源的利用效率、降低投入和运行成本。浪潮海量存储系统可与数据处理系统、前端应用系统等无缝结合,提供统一的监控和管理平台,改善客户的管理和使用体验。
“以前是闭着眼睛干活,现在是睁着眼睛做决策。浪潮海量存储运行后,获得和使用卫星对地监测的海量数据更加高效,对雾霾等异常环境监测更加精准。一句话,利用卫星数据使我们的眼睛更明亮,看得更清楚,决策就更有力。”某卫星数据中心信息化负责人说。
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。