当前地理信息行业正成为跨界创新的焦点,互联网BAT三巨头纷纷跨界布局地图领域,让外界了解到地理信息行业中的数据其实是一所“大金矿”。其实,在测绘地理信息技术应用的最前沿,某省测绘院早已认识到测绘大数据的价值,采用浪潮AS3000支撑起三维建模的大数据需求,构建三维空间蓝图。
三维建模,大数据存储是核心
“测绘行业关乎国计民生、两型社会、雾霾治理、智慧城市‘网格化’,以及互联网、物联网关联服务业的发展,理应成为大数据应用的开路先锋。为此,我们以提升核心竞争力为着力点,确定了以全方位立体快速数据采集能力、海量数据快速获取能力和地理实体数字三维重建技术为核心的发展思路。”测绘院技术负责人全面介绍了“三维空间蓝图”的由来。
崀山国家地质公园数字景观三维建模成果图:鲸鱼闹海
他同时还表示,“三维建模全面应用会在数据存储和应用方面遇到挑战,必须消除之前不利于业务发展的因素,重新构建符合新应用、新业务需求的大数据存储系统。”那么,在某省测绘院用集体智慧构建的未来发展战略中,数据存储与管理遇到了什么问题,又为何被称为“不利因素”呢?
“共享难、效率低、安全差、容量小”,四大阻碍亟需突破
深入沟通之后发现,测绘院原有的数据存储应用模式影响着持续创新和业务发展的速度。虽然技术人员尝试过数据存储和管理方式的改变,但一系列问题却在改变中接踵而至。
存储管理方面“先开刀”的是数据共享和访问方式。据了解,该院下设8个职能科室、8个生产单位,但之前80%的单位数据存储设备都比较落后,5个科室甚至还在使用传统的服务器本地直连形式,在数据共享和管理方面已经完全满足不了业务发展的需求。
为了实现更方便的数据共享访问,某省测绘院采用了数据集中管理模式,将数据统一放在数据中心,但随之而来又出现了性能和安全方面的问题。
在性能方面,数十个部门、上百人同时访问,带宽争用和访问响应速度缓慢的问题出现了,这让很多用户开始抱怨。而之前的存储系统无法感知存储类型,不能优化大型非结构化数据的存储模式,导致重复数据越来越多,访问效率越用越低。
在数据安全可靠性方面,也与之前的情形截然不同。据了解,该院的存储数据主要来自于8个生产单位,最终的成果资料交由8个职能科室之一的生产技术科来管理和保密。但在共享模式下采集的数据如果丢失,将是人力物力财力的极大浪费,尤其是在国际化信息安全趋势持续恶劣的当下,关乎国民生计的地理信息测数据绘绝不能被非法人员窃取。
“上述问题是随着需求变化和应用调整产生的,这为我们列出了‘管理、性能、安全’三项新需求。除此以外,三维重建技术应用,更要解决数据存储容量的问题。”该技术负责人说,“测绘工作采集了大量非结构化数据,经过长时间积累可能达到PB级别,尤其是三维建模采集的数据量更大,从二维图形到三维图形数据量的增长是几何倍数级的。”
一线调研洞悉需求,AS3000支撑测绘大数据存储
“他们能够深入到业务工作的一线,走访到每个单位和科室,在这种细致的需求调查基础上,呈交上了一份可以解决问题、满足业务发展、支撑‘三维空间蓝图’战略的解决方案。”技术负责人对浪潮工程师的工作态度和解决方案都十分满意。他表示,“前期设计方案从四个问题入手,整体性很强。重细节、看发展,这是我们最终采用浪潮测绘大数据存储解决方案的原因。”
根据客户数据中心的特点、业务部门的需求,浪潮提出利用海量集群NAS 控制器AS3000搭配浪潮高性能磁盘柜、万兆交换网络、光纤交换网络,提供PB级数据存储、共享特性、高效安全可扩展的测绘大数据解决方案。
某省测绘院存储系统整体解决方案
本次方案配置8个AS3000控制节点,其中2个为元数据控制节点,实现元数据访问、分布式系统监控、日志备份、系统管理功能,控制节点间采用Active-Active工作模式,保障在一个节点出现故障时,不影响主机业务运行;其余6个为数据存储节点,均配置高速万兆以太网络,32GB高速缓存,数据节点也采用Active-Active工作模式,从而保证整个系统的安全性、可靠性、连续性。另外,方案采用高度模块化的设计,将控制节点、数据节点、存储设备相分离元数据与数据分离架构,确保用户数据的传输只发生在客户端和数据节点之间。
值得一提的是,存储系统后端采用浪潮高性能磁盘柜提供648TB超大容量,前端通过双FC交换网络连接到AS3000控制器,链路冗余充分保障其中一条网络链路故障不影响系统应用。稳定可靠的高性能磁盘柜提供了超大的后端存储带宽,使得AS3000如虎添翼,打造出了完美极致性能体验。经过现场测试,两大产品无缝整合,可提供高达6GB的聚合带宽和在线6000的IOPS,满足该院所有客户端同时在线读取数据。
浪潮AS3000集群NAS存储系统
在实际运行中,浪潮AS3000集群NAS存储系统完全并行化的解决方案让用户不必再为性能担忧。针对测绘地理信息的工作流、读密集型以及大型文件的访问特点,浪潮AS3000支持单个目录下文件数量达到千万以上,每秒104到105个操作的元数据处理吞吐率,即使全院所有客户端同时读取同一个目录下的一个文件,也不会出现卡顿滞留的现象。
在海量数据存储和访问需求面前,浪潮AS3000独特的高性能、集群架构可实现多控制器的数据并发读写,控制器还可根据用户需求灵活地实现在线扩展。将“三维空间蓝图”战略落地,某省测绘院需要保存的数据量将会急剧上升,在AS3000多种扩展方式中,双方沟通后选择了scale-out方式,即增加数据节点的数量和后端磁盘柜的数量,达成了日后性能和容量扩展的规划。
从几小时到几分钟,三维建模效率飞速提升
“AS3000是浪潮自主研发的拥有完全自主知识产权的海量存储系统平台,其完全国产化的背景,可以细分权限的安全策略,让我们在数据安全保密方面能力大幅提升,有效防止了数据被监控、被窃取的事件发生。另外,系统还支持重复数据删除技术,极大地节省存储空间,全院同样的文件只保存一份,而映射给用户的是多份,并且不影响用户的读取速率体验。这套安全可扩展的存储平台,能够支撑起我院所有单位的应用业务,大大提升了我院的工作效率。”项目实施后,测绘院技术负责人给出了满意的评价。
那么,与之前相比,工作效率到底提高了多少呢?
在测绘院工作多年的一位测绘工程师表示,“原先的存储设备面对这类大型非结构化数据的读取和写入显得无能为力,这严重的影响后期的技术制作,拖延了模型成果的生成,成为了提升市场竞争力的瓶颈之一。过去,三维地理模型制作时,数据的读取可能需要几小时的时间,然而现在短短几分钟内就能完成所需求数据的下载与上传,工作效率提高了十余倍,乃至数十倍。”
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。