当前位置：首页 > news >正文

涉私数据安全与可控匿名化利用机制研究（下）

news 2025/9/4 15:26:10

文章目录

前言
三、可信数据空间支撑可控匿名化机制
- （一）基于政府可信根的可控匿名化
- （二）可信数据空间“中国模式”保障数据全生命周期合规可控
- （三）可控匿名化对大模型数据可逆风险的防御机制

前言

尽管《个人信息保护法》确立了“知情-决定”权优先原则，《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》（以下简称“数据二十条”）也构建了数据权益分层保护框架，但在数据要素市场化配置过程中，涉私数据仍面临双重挑战：一方面，传统数据脱敏技术难以平衡涉私数据效用与安全，存在身份重识别风险；另一方面，数据跨境流动、大模型训练等新场景衍生出更复杂的合规要求。

如何通过技术创新与制度设计，实现涉私数据“可用不可见、可控可计量”的可信流通利用，这既是数据要素市场建设的关键“瓶颈”，也是落实国家数据安全战略的重要课题。

在这里插入图片描述

三、可信数据空间支撑可控匿名化机制

以政府可信根为监管根基的可信数据空间，通过构建范围可控、环境可控与监管可控的三维保障机制，支撑可控匿名化在数据流通过程中的可信执行，确保涉私数据全生命周期安全合规。

（一）基于政府可信根的可控匿名化

可控匿名化的要点在于可控。具体而言，要求假名化数据控制在特定范围内，且无法借助额外信息让假名化数据还原，只有实现这种程度的控制，假名化数据才能成为真正意义上的可控匿名化数据。因此，可控匿名化要求数据利用的范围、环境及监管均处于可控状态，而这一目标的实现，其根本在于将可控匿名化置于可信数据空间内，即依托以可信数据空间为核心与边界的数据基础设施（数据平台）。可信数据空间是基于共识规则搭建的，旨在联接多方主体，实现数据资源共享共用的数据流通利用基础设施，具备数据可信管控、资源交互以及价值创造三类核心能力，其核心要义在于实现数据在不同主体之间的可信流通。首先，可信数据空间可以实现范围可控，所有数据交互均限定在其边界范围之内；其次，可信数据空间可实现环境可控，基于密码技术、区块链、隐私计算、使用控制、数据沙箱、零信任架构等机制，保障其执行环境的可控性；最后，可信数据空间能够实现监管可控，数据提供方、使用方及运营方均需经过可信认证，且运营方必须获得来自作为中立第三方的政府的可信授权，从而保证可信数据空间对各方的价值中立与公平公正，使其成为可信背书的最终依托，同时也便于对其进行独立监管。

（二）可信数据空间“中国模式”保障数据全生命周期合规可控

在数据保护领域，欧盟向来以重视个人信息保护而备受关注。值得一提的是，欧盟虽推行匿名化和假名化，但其假名化与我国所倡导的可控匿名化存在本质差异。

欧盟的假名化不同于匿名化，而是受到《通用数据保护条例》（GDPR）的严格规制。假名化数据是个人数据的一种特殊类型，借助一些额外信息即可归属于已识别或可识别个人。换言之，假名化数据是“可逆的”，日后可以通过额外信息与原始数据主体（关联对象）联系起来。如果从欧盟的共同数据空间获得假名化数据，这些数据是可以在共同数据空间以外加以利用的，也就难免与额外信息相联系而还原出数据主体（关联对象）。究其根源，欧盟的共同数据空间作为标准化的数据交换框架，虽以促进数据重用为目标，通过假名化或匿名化手段进行数据处理，但其应用场景具有开放性特征。这种开放的运行机制，客观上难以完全杜绝假名化数据被逆向还原的可能性。

欧盟的共同数据空间缺失“数据不出域”“可用不可见”“可控可计量”“可信可追溯”等机制，更没有构建起类似我国“海南模式”的数据产品化、数据产品瞬间集成等机制，因而无法做到涉私数据全生命周期的可信，无法对涉私数据的利用实施全过程的可信管控。而我国的可信数据空间虽然借鉴了共同数据空间的部分理念，如共识规则、多方主体、数据重用及价值共创等，但在本质层面存在显著差异，具备可信管控、数据交互和价值共创的整体功能。特别是可信管控能力，切实保障了“数据不出域”“可用不可见”原则的有效落地。在“海南模式”的数据产品超市实践中，通过数据产品化与数据产品瞬间集成等机制，保证真实涉私数据只有在关联对象（数据主体）授权时才能处理，并且是通过数据产品化方式处理。即便在可信数据空间内，数据处理者（如数据产品开发者等）也无法直接接触真实涉私数据，所能获取的仅是经过假名化处理的逻辑真实数据。由于这种假名化限定在可信数据空间内，不存在可供利用的额外信息来还原假名化数据，从实际效果来看则等同于匿名化数据。因此，只有以政府可信根背书、受政府侧监管的可信数据空间运营者可以掌握从假名化数据到真实涉私数据的映射表，并且这个加密的映射表甚至连运维管理人员也无从知悉，即便有所了解也并不掌握所映射的业务信息。此外，这里也有身份和业务的解耦，进一步确保了涉私数据的安全性。而只有在关联对象授权时，假名化数据才会通过映射表还原为真实涉私数据。

这便是通过政府可信根为背书的可信数据空间支撑的可控匿名化模式。在此模式下，数据对于监管侧的政府管理者是可控的；对于生产侧的数据处理者是匿名的，可在限定范围内作为非涉私数据进行数据处理；而对于应用侧的数据使用者和关联对象，则可以在授权条件下还原为真实涉私数据。这一机制能够有效促进涉私数据的开放利用，更好地实现数据产品的个体化利用。

基于可信数据空间、数据产品化和瞬间集成机制的可信管控，数据假名化得以转化为可控匿名化。这是欧盟共同数据空间做不到，而中国可信数据空间却能够做到的。简言之，中国的可控匿名化以政府可信根背书，有数据全生命周期的可信保障。中国与欧盟在数据处理方式上的根本区别在于：欧盟采取了去中心化方式，对数据环境和范围缺乏管控，没有数据全生命周期的可信管控流，其结果是在严格的个人数据法规规制下，其只能重复利用彻底匿名化的数据，所能生产的数据产品主要是分析类数据产品，而无法生产更高价值的个体化数据产品。反观中国方式，尤其是海南数据产品超市的模式创新，以局部中心化（即政府背书与监管）方式，让数据全生命周期在可信管控之下实现了涉私数据的安全利用。在此基础上，通过“高确定性网络+联盟链+零信任”等机制实现跨域互通和数据产品的规模扩张，利用可控匿名化机制，在可信数据空间内用逻辑真实数据支撑数据产品开发，让数据产品开发者探查数据质量，开发、测试数据产品，生产出分析类和高价值的个体化数据产品。

（三）可控匿名化对大模型数据可逆风险的防御机制

在人工智能大模型广泛应用的背景下，涉私数据安全问题亟待高度重视。针对通用大模型所处的开放应用场景，即使采用匿名化数据开展训练，由于生成式人工智能的概率性与不确定性，特别是在针对性的提示词诱导下，仍面临数据可逆的潜在风险。中国的可信数据空间的可信管控包括范围可控、环境可控、监管可控等，为涉私数据在人工智能领域的安全应用奠定了坚实基础。基于可信数据空间框架，通过产品化方式实现了涉私数据的合规利用，借助逻辑真实数据支持大模型私域应用，这一模式不仅更具可信度，还构成了抵御数据可逆风险的有效防线。

通过可控匿名化机制，严格将逻辑真实数据的使用范围限定在可信数据空间内，并将人工智能大模型以私域形式部署于该空间，利用逻辑真实数据作为私域数据（私域知识库），通过微调、强化学习及检索增强生成（RAG）等技术手段，构建适用于可信数据空间的专用小模型应用体系。由于整个数据处理流程均在可信环境内完成，有效规避了逻辑真实数据因额外信息介入导致的可逆风险。尤为关键的是，在数据产品化机制下，当应用场景延伸至可信数据空间外部时，出域的并不是数据本身，而是经过处理后的数据产品输出结果，这进一步降低了逆向推导原始真实数据的风险。

查看全文

http://www.xdnf.cn/news/1449199.html