项目背景
档案承载着国家发展的历史,蕴含着中华五千年灿烂文化的底蕴,它翔实地记录着人们创造历史的曲折历程和奋战足迹,是弥足珍贵的“中国记忆”。
如何收集各类档案信息资源,不断丰富和完善“中国记忆”,更好的分享和利用“中国记忆”,使档案资源真正发挥其自身价值,是档案管理部门亟待解决的问题。
为此,国家档案局档案科学技术研究所启动了“国家开放档案信息资源管理与共享利用综合系统建设项目”,通过构筑国家开放档案信息资源管理与共享利用综合平台,最大限度的与各级档案馆及社会公众共享资源,方便其通过平台便捷的获取各类信息资源。
项目需求
1、搭建档案云服务平台。建成国家开放档案信息资源管理与共享利用综合系统,整合全国50个国家综合档案馆的开放档案信息资源,目录及原文数据达100万条,并建立部分热点档案专题库。
2、建设一个全国中心,建设6个分中心、与中央云中心的系统进行集成。实现分布式档案信息资源存储利用,以满足海量档案数据存储、数据分发、数据备份的需求。
3、全面开放档案系统、实现全文检索等多种检索功能、提供档案检索使用统计分析等各类分析报表、实现信息资源自动采集与数据挖掘分析。
4、提供全国分布式系统的统一管理和监控系统、能够自动分发、部署、升级、审计、维护、授权等一站式管理。
5、安全性要求
系统实现7*24小时的连续运行
年平均年故障时间小于1天,数据库平均恢复时间小于1小时;
系统故障实时提示并且系统平均恢复时间小于4小时。
赛思信安智慧档案大数据解决方案
针对国家档案馆的需求,以赛思分布式数据仓库(iDiller)为核心、结合赛思海量非结构化数据库、赛思大数据集成引擎、赛思大数据运维管理引擎等产品,共同形成国家档案馆的解决方案。整体网络部署效果如下图所示:
该项目中,共包含一个中央云中心集群和六个地方分中心集群在内的七个分布式数据存储子集群,不同数据中心间的数据可以跨数据中心流动。可以支持数据存储、读取、各种形式的检索、基于任务的分析、分布式数据安全保护策略、在线容量扩展、数据访问控制以及对于数据平台监控管理、日志审计管理等核心业务实现的底层基础系统支撑。
跨数据中心管理子模块解决异地数据中心的副本管理。包括跨数据中心数据实时同步和数据不一致性自恢复机制。跨数据中心系统的设计目的同样是从保证数据的安全性为出发点,以杜绝数据丢失的可能性。跨数据中心系统的技术基础集合了数据库操作,信息通知机制及HTTP数据传输方式三大技术要点。
用户对于整体系统的监控是另外一个重点,本系统使用了赛思分布式存储管理监控系统,监控系统不仅可以实现对于自身访问用户的权限控制,同时也实现了分布式存储子系统对于集群中各节点的CPU、磁盘、内存等相关重要硬件资源的使用情况的数据采集功能,为系统维护人员,供管理人员与运维人员的工作提供了依据与便利。同时支持的日志审计管理功能则是供管理员日常查阅及后期追溯之用。
系统使用到的赛思产品有:
iDriller赛思分布式数据仓库
iHyperDB赛思海量非结构化数据库
iSwapper赛思大数据集成引擎
iManager赛思大数据运维管理引擎
用户效益:
实现了对档案信息的智能检索。档案系统借助赛思信安大数据解决方案,不仅扩充了对档案信息的多类型、高效率、跨信息源的智能检索功能。
实现了档案资源跨地区共享和数据的全面整合。本系统实现了分布在全国各个档案馆的数据统一整合,形成了档案馆的一体化管理,极大地提升了信息的分享能力和充分发挥了档案资料的使用效率,充分满足各级档案业务人员数据实时交互的共享需求。
建设了分析预测平台、实现了档案关联分析、提升用户的应用能力。实现复杂预测及决策分析,助力档案业务应用能力提升。对业务分析系统提供多种统计功能,包括分组、排序以及聚合等,以及海量结构化和非结构化档案数据的分布式存储与集中管理。
提高了数据的安全性。建立了全国的统一用户管理机制,设定了权限控制机制,设立了设计机制,确保任何时候都清楚谁在看,谁看过,谁能看的规范。同时系统设立了多中心机制,多中心之间数据互备,数据多副本保存,数据异地容灾,避免了单点故障和单城市故障,提高了数据的安全性。
案例总结:
基于对项目需求的深刻理解及在大数据领域自主研发的多年积累,北京赛思信安技术有限公司凭借在分布式存储系统、跨数据中心管理、云备份管理、数据库资源设计等技术方面的雄厚实力,以及在分享与利用方面的诸多创新理念,赛思信安自主研发的大数据管理平台(Scistor dataFusion)在众多竞争产品中脱颖而出,成功的应用于该系统建设。
本系统实现了全文检索、结构化数据和文本数据一体化检索,分布式存储与集中管理等基础服务功能,进一步完善档案管理的标准体系的建设,同时探索为经济欠发达或技术力量薄弱地区档案馆建设档案信息综合管理系统提供了良好的借鉴经验。赛思信安智慧档案大数据解决方案让档案服务民生的能力更强大,让“中国记忆”最大限度的发挥自身价值,方便人民大众对档案信息的查找、分享与利用,从而为全社会提供不受时间、空间限制的社会化、集约化、专业化的开放档案信息资源共享服务。
好文章,需要你的鼓励
最近《Gartner十大战略技术趋势报告(2025)》正式出炉,人工智能众望所归成为焦点,在多个趋势中得到了充分体现。
CIO越来越多地利用云和分析引领数字化变革,尤其是在零售和服务公司,但本质上交叉点是与创收密切相关,在这方面IT优先级也不断提高。
谷歌云(Google Cloud)希望通过推出新的谷歌云人工智能代理生态系统计划,将人工智能代理的销售和客户采用率提升到新的高度,通过新的技术和市场资源帮助合作伙伴建立并共同创新人工智能代理。