当前地理信息行业正成为跨界创新的焦点,互联网BAT三巨头纷纷跨界布局地图领域,让外界了解到地理信息行业中的数据其实是一所“大金矿”。其实,在测绘地理信息技术应用的最前沿,某省测绘院早已认识到测绘大数据的价值,采用浪潮AS3000支撑起三维建模的大数据需求,构建三维空间蓝图。
三维建模,大数据存储是核心
“测绘行业关乎国计民生、两型社会、雾霾治理、智慧城市‘网格化’,以及互联网、物联网关联服务业的发展,理应成为大数据应用的开路先锋。为此,我们以提升核心竞争力为着力点,确定了以全方位立体快速数据采集能力、海量数据快速获取能力和地理实体数字三维重建技术为核心的发展思路。”测绘院技术负责人全面介绍了“三维空间蓝图”的由来。
崀山国家地质公园数字景观三维建模成果图:鲸鱼闹海
他同时还表示,“三维建模全面应用会在数据存储和应用方面遇到挑战,必须消除之前不利于业务发展的因素,重新构建符合新应用、新业务需求的大数据存储系统。”那么,在某省测绘院用集体智慧构建的未来发展战略中,数据存储与管理遇到了什么问题,又为何被称为“不利因素”呢?
“共享难、效率低、安全差、容量小”,四大阻碍亟需突破
深入沟通之后发现,测绘院原有的数据存储应用模式影响着持续创新和业务发展的速度。虽然技术人员尝试过数据存储和管理方式的改变,但一系列问题却在改变中接踵而至。
存储管理方面“先开刀”的是数据共享和访问方式。据了解,该院下设8个职能科室、8个生产单位,但之前80%的单位数据存储设备都比较落后,5个科室甚至还在使用传统的服务器本地直连形式,在数据共享和管理方面已经完全满足不了业务发展的需求。
为了实现更方便的数据共享访问,某省测绘院采用了数据集中管理模式,将数据统一放在数据中心,但随之而来又出现了性能和安全方面的问题。
在性能方面,数十个部门、上百人同时访问,带宽争用和访问响应速度缓慢的问题出现了,这让很多用户开始抱怨。而之前的存储系统无法感知存储类型,不能优化大型非结构化数据的存储模式,导致重复数据越来越多,访问效率越用越低。
在数据安全可靠性方面,也与之前的情形截然不同。据了解,该院的存储数据主要来自于8个生产单位,最终的成果资料交由8个职能科室之一的生产技术科来管理和保密。但在共享模式下采集的数据如果丢失,将是人力物力财力的极大浪费,尤其是在国际化信息安全趋势持续恶劣的当下,关乎国民生计的地理信息测数据绘绝不能被非法人员窃取。
“上述问题是随着需求变化和应用调整产生的,这为我们列出了‘管理、性能、安全’三项新需求。除此以外,三维重建技术应用,更要解决数据存储容量的问题。”该技术负责人说,“测绘工作采集了大量非结构化数据,经过长时间积累可能达到PB级别,尤其是三维建模采集的数据量更大,从二维图形到三维图形数据量的增长是几何倍数级的。”
一线调研洞悉需求,AS3000支撑测绘大数据存储
“他们能够深入到业务工作的一线,走访到每个单位和科室,在这种细致的需求调查基础上,呈交上了一份可以解决问题、满足业务发展、支撑‘三维空间蓝图’战略的解决方案。”技术负责人对浪潮工程师的工作态度和解决方案都十分满意。他表示,“前期设计方案从四个问题入手,整体性很强。重细节、看发展,这是我们最终采用浪潮测绘大数据存储解决方案的原因。”
根据客户数据中心的特点、业务部门的需求,浪潮提出利用海量集群NAS 控制器AS3000搭配浪潮高性能磁盘柜、万兆交换网络、光纤交换网络,提供PB级数据存储、共享特性、高效安全可扩展的测绘大数据解决方案。
某省测绘院存储系统整体解决方案
本次方案配置8个AS3000控制节点,其中2个为元数据控制节点,实现元数据访问、分布式系统监控、日志备份、系统管理功能,控制节点间采用Active-Active工作模式,保障在一个节点出现故障时,不影响主机业务运行;其余6个为数据存储节点,均配置高速万兆以太网络,32GB高速缓存,数据节点也采用Active-Active工作模式,从而保证整个系统的安全性、可靠性、连续性。另外,方案采用高度模块化的设计,将控制节点、数据节点、存储设备相分离元数据与数据分离架构,确保用户数据的传输只发生在客户端和数据节点之间。
值得一提的是,存储系统后端采用浪潮高性能磁盘柜提供648TB超大容量,前端通过双FC交换网络连接到AS3000控制器,链路冗余充分保障其中一条网络链路故障不影响系统应用。稳定可靠的高性能磁盘柜提供了超大的后端存储带宽,使得AS3000如虎添翼,打造出了完美极致性能体验。经过现场测试,两大产品无缝整合,可提供高达6GB的聚合带宽和在线6000的IOPS,满足该院所有客户端同时在线读取数据。
浪潮AS3000集群NAS存储系统
在实际运行中,浪潮AS3000集群NAS存储系统完全并行化的解决方案让用户不必再为性能担忧。针对测绘地理信息的工作流、读密集型以及大型文件的访问特点,浪潮AS3000支持单个目录下文件数量达到千万以上,每秒104到105个操作的元数据处理吞吐率,即使全院所有客户端同时读取同一个目录下的一个文件,也不会出现卡顿滞留的现象。
在海量数据存储和访问需求面前,浪潮AS3000独特的高性能、集群架构可实现多控制器的数据并发读写,控制器还可根据用户需求灵活地实现在线扩展。将“三维空间蓝图”战略落地,某省测绘院需要保存的数据量将会急剧上升,在AS3000多种扩展方式中,双方沟通后选择了scale-out方式,即增加数据节点的数量和后端磁盘柜的数量,达成了日后性能和容量扩展的规划。
从几小时到几分钟,三维建模效率飞速提升
“AS3000是浪潮自主研发的拥有完全自主知识产权的海量存储系统平台,其完全国产化的背景,可以细分权限的安全策略,让我们在数据安全保密方面能力大幅提升,有效防止了数据被监控、被窃取的事件发生。另外,系统还支持重复数据删除技术,极大地节省存储空间,全院同样的文件只保存一份,而映射给用户的是多份,并且不影响用户的读取速率体验。这套安全可扩展的存储平台,能够支撑起我院所有单位的应用业务,大大提升了我院的工作效率。”项目实施后,测绘院技术负责人给出了满意的评价。
那么,与之前相比,工作效率到底提高了多少呢?
在测绘院工作多年的一位测绘工程师表示,“原先的存储设备面对这类大型非结构化数据的读取和写入显得无能为力,这严重的影响后期的技术制作,拖延了模型成果的生成,成为了提升市场竞争力的瓶颈之一。过去,三维地理模型制作时,数据的读取可能需要几小时的时间,然而现在短短几分钟内就能完成所需求数据的下载与上传,工作效率提高了十余倍,乃至数十倍。”
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。