近几年,以数据为新生产要素的数字经济蓬勃发展,数据安全作为保障数字经济稳步发展的基石,相关的法律法规和监管制度也日益严格。2021年6月10日,《中华人民共和国数据安全法》由第十三届全国人民代表大会常务委员会第二十九次会议通过,作为数据领域的基础性法律,也是国家安全领域的一部重要法律,数据安全法进一步明确了企业在保障数据安全中的责任与义务,强调要建立健全全流程数据安全管理制度,采取相应的技术措施保障数据安全。
面对数据安全法提出的更高要求,神州数码独立设计研发的TDMP数据脱敏系统,基于灵活的脱敏策略、精准的隐私数据发现、多样化的脱敏方式和高效的脱敏算法等优势,为企业的数据隐私保护提供高安全性、高可用性、高可靠性、高稳定性、高效率的专业数据安全方案。
数据安全防护面临多重难点,数据识别能力亟需提升
当前,越来越多的企业正在通过引入专业的数据脱敏工具完善数据安全防御体系,提高数据安全管理和治理水平。但随着业务扩展、以及大数据、云计算等新技术的应用,企业数据安全防护的要求越来越高,防护的难度也越来越大,原有的安全防护模型逐渐难以满足现实的安全需求。
一方面,由于企业业务变更迭代和人员流动等问题,导致新的敏感数据未被数据脱敏系统及时识别和脱敏处理,造成敏感信息泄露的风险;另一方面,业务系统中经常存在非规范化敏感数据,这些数据的特征不够明显,无法使用正则和编码校验等方式去匹配,系统通过基于数据特征的方法很难识别到这类非规范化敏感数据,或者识别有误。
面对这类防护难点,数据脱敏系统需要加强自动化识别和动态变更的能力,同时也要提升非规范化敏感数据的识别能力。神州数码TDMP数据脱敏系统,通过采集元数据、采集样本数据、样本数据清洗和标准化、对样本数据识别并归类,可有效提升非规范化敏感数据识别率。
提升非规范化敏感数据识别率,为数据安全保驾护航
首先,数据脱敏系统需要采集业务系统数据库中的元数据,包括模式名、表名、字段名、字段类型、注释信息,系统会根据字段类型对数据的类型进行初步的判断。随后,数据脱敏系统会采集业务系统的样本数据,对每张数据表进行随机抽样,抽样时需要剔除噪声数据,包括空字符、null对象等,从而提高数据样本质量。
样本采集后,系统会对样本数据进行清洗和标准化处理。如果样本数据是规范且具有某种数据特征,数据脱敏系统会对样本数据进行精准识别。但通常会有一些样本数据并不规范,会导致系统识别出现误差。比如客户在录入电话号码的时候,可能将“88188286”写成“02888188286”、“028-88188286”、“(028)-88188286”、“88188286”。对此,系统需要对样本数据进行清洗和标准化处理,比如:将影响识别的字符诸如空格、非常用特殊字符、括号、中横杠等去掉;将全角类字符自动转换为半角字符;将乱码字符替换成汉字或剔除等。
最后,数据脱敏系统会对获取的样本数据进行分类与识别。在初步的分类中,系统会根据样本数据的数据类型进行归类,比如字符类型的数据通常不会存储金额类数据;数值类型的数据不会存储名称、地址类数据;日期类型的数据只能是日期时间类数据;大对象字段通常存储有文本、图片、报文等特殊的数据。
在对样本数据的识别上,数据脱敏系统会进行三轮识别。首轮识别中,系统根据数据的词汇特点进行初步匹配,对数据进行敏感信息大类划分,例如,全是汉字或汉字占比较高的可能是名称、地址等敏感信息类,全是数字或数字占比较高的可能是电话、账号等敏感信息类。首轮的识别和分类,可以减少数据脱敏系统对敏感数据识别的总体时间,提升识别效率;第二轮精确识别中,系统通过内置的高级识别算法对样本数据特征进行词法分析,并完成敏感数据的精确识别,识别成功的数据根据分类自动归纳到某种敏感信息类,识别失败的数据则交给AI敏感数据扫描引擎处理;AI敏感数据扫描引擎会加载某敏感类型和训练模型,经过模型运算输出敏感信息识别率,通过敏感信息识别率与敏感类型阀值大小比较判断是否识别成功,完成第三轮深度扫描识别。
通过AI敏感数据扫描引擎识别非规范化敏感数据的精确度会远远高于非AI识别算法。以下面的扫描对比情况为例:ADDRESS的数据是规范化数据,CLIENT_ADDRESS的数据是非规范化数据,通过非AI识别算法,扫描CLIENT_ADDRESS的识别率仅仅13.33,而使用AI敏感数据扫描引擎后,识别率能达到73.33%。
基于强大的数据安全管理能力,目前,神州数码TDMP数据脱敏系统已在银行、保险、证券等领域多个头部客户的实际应用场景中落地。未来,以数据安全法提出的更高要求为目标,神州数码将继续积极探索,为企业的数据安全保驾护航,为数字经济发展提供安全稳定的保障。
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。