能源行业迈入大数据时代
随着数据总量的持续增长和急速膨胀,大数据时代已经来临,石油、电力等能源细分行业纷纷拉开了大数据开发应用的序幕。如何从海量数据中高效获取信息,有效地深加工并最终得到有用数据是能源企业涉足大数据的目的。
对石油行业来说,众多企业正在把更多的新技术应用于战略决策、科技研发、生产经营和安全环保等各个领域,目的是为了从大数据资源中挖掘更多的财富和价值。大数据应用是石油行业信息化深入、IT与业务深度融合的必然趋势,在我国石油石化行业应用的前景将越来越广阔。随着石油储备的逐步减少,石油石化行业产业链中的勘探、开发难度日益增大, 信息化的成熟度已经成为影响行业增长幅度的首要因素。精准、快速的地质勘测成为世界能源巨头们倚重的核心竞争力之一,其中高性能计算技术和大数据技术的应用是关键因素。
油气勘探海量数据处理需要高性能计算
目前在石油勘探中最常用的是地球物理方法。地球物理方法是使用现代物理方法进行地质勘探的方法,包括电法、磁法、重力法、放射性法、地震波法等,其中以地震波法最为重要。为了了解和模拟出地下数千米的地质构造,通过地震波反射方式来收集海量数据,一般二维数据可达1~2TB,三维数据可高达几百TB甚至PB级, 然后进行大量的密集计算和模拟,计算结果出来后还要转换成直观的可视画面,方便专家对数据进行解释,为油气钻井定位提供参考。因此,这些海量数据的处理只有借助高性能计算才能实现最佳的勘探效益,这也是在石油勘探领域高性能计算需求的主因。
由于石油勘探行业的特殊性和复杂性,石油勘探对高性能计算提出了非常苛刻的要求。过去十年中,石油勘探计算处理多采用大型机或高性能计算机,但目前高性能计算机系统在计算性能、系统建设与运行成本等方面已经面临着许多问题。让石油勘探企业感到颇为头痛的问题主要集中在三大困境:一是计算能力需求和CPU处理器性能落差越来越大,目前通过不断提高CPU处理器的工作频率来提高计算性能的技术路线已经逐步走向其极限;二是石油勘探高速增长的数据和存储扩容越来越不匹配;三是能耗制约越来越严重,高性能计算机的体积大、耗电多等弱点以及对庞大的计算机房空间需求、空调需求和用电量等已经成为石油勘探数据处理的一大挑战。
地震资料数据的大数据特征
BGP(中国石油集团东方地球物理公司)是中国石油天然气集团公司独资的地球物理专业化技术服务公司,主要从事陆地、浅海地震勘探采集、处理、解释及物探装备和软件研发,业务分布在全球34个国家,陆上地震勘探市场份额居全球第一位。现拥有2.6万员工,3000多IT人员和300多软件开发人员,在全球有23个处理中心,约9万CPU核和80万GPU核,运算能力约2PFlops,存储容量超过25PB。
中国石油集团东方地球物理公司研究院的总工程师赖能和先生曾在华为云计算大会2013上做了《大数据技术在石油勘探领域的应用》的主题演讲,对地震海量数据的采集与处理过程做了详细阐释。
石油勘探过程产生的大数据有自己独特的“4V”特征:
1、 数据海量:以BGP为例,每天会产生大于7TB的生产数据,在地震资料处理过程中还会产生大量的中间过程数据。
2、 数据来源单一:地震资料数据是由人工模拟地震波激发,由定点采集仪器接收和采集到的,数据来源和数据格式都比较单一。
3、 计算量大:以BGP为例,54TB的原始数据通过4000个CPU 的计算集群处理,需要50多天时间。
4、 处理流程复杂:地震资料处理过程涉及到频繁的IO和数据库,操作复杂。
地震数据的快速增长对于存储提出了巨大需求,也对传统的HPC软硬件架构提出了新的挑战。
华为石油勘探HPC解决方案实现高计算、大存储能力
针对石油行业的特点和需求,华为提出了石油勘探HPC解决方案,包含以下几个部分:
1、计算集群系统
计算节点和胖节点采用华为刀片服务器,提供强大的计算能力,特别是浮点计算能力,以完成地震资料处理中巨大的计算任务。
2、存储系统
存储部分采用华为OceanStor 9000大数据存储系统(简称OceanStor 9000)。
与传统的NFS和lustre方案不同,OceanStor 9000采用全对称分布式架构,每个节点都可以提供IO和存储单元,提供业务访问、数据处理和存储的能力,因此可以轻松完成节点扩容,实现系统性能和容量的线性扩展。
其全对称Scale-out架构,通过集群模式、自动负载均衡、全局缓存等技术来整合和管理系统资源,有效提升存储系统性能,缩短地震资料处理的作业周期。OceanStor 9000还具备高可靠性和硬件容错能力,保障作业正常运行。它还能提供灵活的组网方式,前后端网络均支持Infiniband或者10GE以太网高速互联,能有效满足石油勘探HPC场景的高带宽、低时延需求
3、网络互联
采用计算网络、存储网络和管理网络分离的方式。计算网络采用万兆以太网,承担并行计算时的数据通讯。管理网络采用千兆以太网,用于HPC集群系统的管理和监控。存储网络采用10GE以太网或40GE的Infiniband网络,为主机访问数据文件提供高速的网络互联。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。