2023年11月15日,中国网络安全领域的专业媒体和旗舰智库安全牛在线上举办数据安全治理的智能化转型探索暨《数据分类分级自动化建设指南》发布会,神州数码作为国内数据安全领域代表性安全厂商之一,携手安全牛及各大厂商联合发布《数据分类分级自动化建设指南》,并在大会上围绕数据分类分级自动化的主要技术、实施要点、选型指导、发展趋势等进行研究探讨,为企业数据分类分级自动化工作落地提供帮助和指引。
数据资产的安全防线升级
作为数字经济发展的核心生产要素,数据已经成为了企业的重要资产和基础战略资源。然而,数据只有使用方能产生价值,数据分类分级就是平衡数据保护和使用之间的重要依据,为政务数据、企业商业秘密和个人数据的保护奠定了基础。
一般而言,数据分类分级工作是数据安全治理的第一步,也是构建数据安全体系的坚实基础。因此,数据分类分级保护制度已经成为我国数据安全的基本制度。从2016年《网络安全法》明确要网络运营者采取数据分类措施,到2021年《数据安全法》具体确立了我国的“数据分类分级保护制度”、《个人信息保护法》要求对个人信息实行分类管理,再到《网络数据安全管理条例(征求意见稿)》进一步明确了数据分类分级的要求。我国数据分类分级保护制度已经日臻完善,逐步筑牢数字经济时代的数据安全基石。
具体来看,数据分类是指根据组织数据的属性或特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好地管理和使用组织数据的过程。数据分级是指在数据分类的基础上,采用规范、明确的方法区分数据的重要性和敏感度差异,按照一定的分级原则对其进行定级,从而为组织数据的开放和共享安全策略制定提供支撑的过程。
然而,尽管数据分类分级如此重要,但受限于数据分类分级项目间移植性较低、大量数据及数据间关联属性难、数据资产难以被有效应用,数据分类分级处理仍然更多地被当做一项孤立的合规举措来处理。在此情况下,如何用自动化、智能化的方式实现海量数据的更好管理和应用,就成为了摆在所有企业在数字化转型面前的必选项。围绕全生命周期数据服务的长期实践,神州数码在数据分类分级领域的优势逐步显现。
神州数码耕耘全生命周期数据服务
致力于成为领先的数字化转型合作伙伴,神州数码围绕全生命周期数据服务,能够为客户提供覆盖数据采集、数据传输、数据存储、数据使用、数据共享、数据销毁在内完整的数据安全解决方案。其中,在数据分类分级领域,神州数码结合行业标准和企业管理要求,能够提供丰富的数据识别策略和分类分级标签、自动扫描识别数据内容,以开放的平台为其他数据安全防护措施提供标准依据。
在产品层面,神州数码数据分类分级系统是在行业或者企业分类分级标准的基础之上,为企业提供数据分类分级的管理平台,便于企业根据分类分级的结果采取恰当的安全防护措施,保证数据安全。目前,神州数码数据分类分级系统已经实现了对传统数据库、大数据平台、文本文件等的全面支持,并且能够全面兼容国产数据库,可提供丰富的数据源支撑。
不仅如此,对于个人身份信息、银行账号等敏感数据,神州数码数据分类分级系统支持自动扫描发现和标记,更能帮助用户快速识别和梳理企业的数据资产,完成对数据的自动分类分级处理,为用户的安全管控策略提供基础和依据。
更重要的是,在数据安全能力底座日益重要的当下,数据安全管控平台已经成为企业发力数据安全的关键触手。而神州数码的数据分类分级产品不仅可独立作为工具使用,在更多时候还可以集成在数据安全管控平台中,与数据脱敏、数据水印、分享溯源能力联动,形成整体的数据安全治理方案。
事实上,在数据要素价值凸显、数字中国崭露头角的当下,神州数码围绕着数云融合技术体系框架,不但在数据安全领域形成了以数据安全管控平台为核心,包含数据采集安全、数据存储安全、开发测试数据使用安全、数据库运维安全、API接口数据安全、数据共享安全、数据外发安全等在内的数据安全解决方案。在数据安全之外,神州数码也已经构建起了覆盖数据采集、数据治理、数据平台、数据分析、数据建模、系统开发、策略应用全生命周期闭环的数据价值挖掘能力,以及全生命周期的定制化的数据战略咨询能力,能够为企业数据安全和数据价值释放持续赋能、为全社会的数字化进程以及数字经济发展提供强劲助力。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。