数字广告数据要素流通保障技术有哪些类型？ - 问答集锦

最佳答案由匿名用户编辑于2023/12/15 10:16

保障技术主要分为两类：匿名化技术，例如假名化、泛化、加噪、受控匿名化；隐私计算技术，例如可信执行环境、多方安全计算、联邦学习、可信密态计算。

一、基础安全技术

1. 典型匿名化技术

匿名化是指个人信息经过处理后无法识别特定自然人且不能复原的过程。匿名化技术通过对数据进行模糊化处理，改变数据颗粒度，进而降低数据的可识别风险。常用技术包括假名化、泛化、加噪等。

（1）假名化假名化是使用假名替换真值的技术，通常用来处理直接标识符。假名化技术一般通过随机假名分配、散列函数、加密算法来实现，使用过程中需要对假名分配表、散列函数、密钥等辅助信息采取合理的安全保护措施。在广告行业中，假名化技术能够很好地隐藏用户 ID、身份证号、邮箱等直接标识用户身份的信息。但是假名化技术一般是基于密钥、映射表构建假名和真名之间的连接，数据流通的部分参与者知晓这些因素，因此它们能够从假名中恢复身份信息。假名化技术主要是保护身份类信息，无法保护需要参与计算的属性类信息，对于外部攻击者、部分数据流通参与者，是无法从假名化信息中获得身份信息的。因此，假名化技术更多的是保护用户的个人隐私，对企业的数据利益保护效果较小。

（2）泛化（Generalization）泛化是将属性值抽象为较一般化、不易区分值的过程。泛化技术的目标是减少独特记录的个数，使得泛化后的属性值在多个用户中都会出现，从而降低从属性反推用户信息的可能性。除了对单一属性进行泛化外，目前泛化技术研究还考虑了两种扩展情况：①从多维度属性反推用户信息；②针对流式数据，如何保障用户信息。前者的典型处理技术包括 k-匿名算法等；后者主要是基于扰动、树状结构、伪造值和聚类等构建方案。在广告行业中，泛化能够减少对外传播的信息的量，进而减少个人隐私暴露以及企业信息泄露的程度。但是泛化也会损失数据精度，导致部分计算任务无法完成。实际使用中，泛化程度的选择常常令人左右为难。

（3）加噪在原始数据上添加扰动噪声，能够降低攻击者识别出数据主体的可能性。常用的加噪技术为差分隐私，该技术为隐私保护提供了严格可量化的数学定义。差分隐私算法一般通过在特定分布中生成不可预测的随机数的方法实现，同时能够保证加噪结果在真实值附近，保留了数据的统计特征。按照差分隐私实施的位置，又可以分为本地差分隐私（Local Differential Privacy，简称 LDP）和集中式差分隐私（Central Differential Privacy，简称 CDP）。LDP 一般作用在数据开始计算以及对外传播之前，比如机器模型训练之前；CDP 一般作用在数据完成计算之后、对外传播之前，比如数据库返回聚合信息。加噪与泛化的作用类似，能一定程度上保护用户信息和企业数据利益，但同时也面临“加噪程度如何选择的难题”。

2.可信执行环境及可信计算技术

可信执行环境（Trusted Execution Environment，简称 TEE）提供一个基于硬件的隔离运行环境，其隔离性不受任何外部软硬件和运营人员的影响。所以多个参与方可以把数据都放到一个 TEE 中，而不担心 TEE 的物理持有者可以窥探其中的内容。TEE 还提供远程验证能力，通过该技术，远程客户端可以确认 TEE 内执行的代码逻辑，进而可以判断该代码是否会恶意输出数据。与典型的匿名化技术相对， TEE不需要损失数据精度，可以全面保护各种类型的数据；与MPC/FL 相比，TEE 在计算过程中不需要密码学计算和网络交互，性能可接近明文。可信计算（Trusted Computing，简称 TC）指的是计算机系统的行为如预期的计算技术。广义上也包括 TEE，一般情况下特指基于可信平台模块(Trusted Platform Module, 简称 TPM)、可信平台控制模块 (Trusted Platform Control Module，简称 TPCM)的计算系统度量和验证技术。在恰当的软硬件配合下，比如去除软件的特权账号、防止物理攻击内存等，上述技术可以实现抵御物理持有者的攻击。

在广告行业中，TEE 和 TPM 技术可以用来保护各个场景下的用户数据，对场景和性能的约束很小。它主要缺点是依赖特殊硬件，会引起一些额外的成本，从现实情况来看，部分广告场景数据量大、数据价值密度低，额外的成本市场接受度低。TEE 和 TPM 技术一般需要部署在数据方自己的管理域外，一旦有系统漏洞，数据可能会面临失窃风险。

3.多方安全计算与联邦学习

多方安全计算（Secure Multi-Party Computation，简称 MPC）通过密码学技术让多方共同计算一个目标且不需要将自己的数据泄露给其他方。MPC 一般会针对每个基础运算设计不同的协议，再通过基础运算的组合实现复杂运算。每个基础运算的协议一般都会伴随着密码学运算和网络交互，所以 MPC 协议一般需要大量的密码学运算和网络交互。为了探索技术理论，一些弱化的 MPC 算法会在“参与方不会篡改本地逻辑”的假设下进行研究，但这种假设一般与现实不符，通常仅能提供一定的安全性，但无法充分满足现实要求。联邦学习（Federated Learning，简称 FL）指多个参与方在不交换原始数据的情况下，仅通过交换模型参数和中间结果，完成机器学习训练和预测。与 MPC 相比，FL 存在中间变量泄露、被恶意参与方窃取有价值信息的风险。目前一些 FL 在探索使用同态加密、差分隐私、 TEE 等技术缓解上述风险。在广告场景中，MPC 和 FL 可用于数据价值大但规模较小的场景，因为 MPC 和 FL 不需要特殊硬件，部署相对灵活。但与此同时， MPC 和 FL 同样也有着“安全性”和“性能”处于跷跷板关系的困境，实际使用中需根据情况甄别。

二、可信密态计算

可信密态计算 (Trusted-Environment-based CryptographicComputing，简称 TECC)是指将数据以密态形式在高速互联的可信节点集群中进行计算、存储和流转的一种可信隐私计算技术。可信密态计算既能够抵御常见的安全隐患又能够快速处理大规模数据。具体表现在，它能够缓解供应链攻击、系统漏洞等常见的硬件安全隐患，以及抵御合谋攻击、恶意敌手攻击等常见的密码协议攻击。同时，它不受公网传输瓶颈和复杂的密码计算拖累，没有显著的性能瓶颈。

数据提供者在本地将数据拆分成多个密态分片数据，并将每个密态分片数据传递给不同分区的可信计算节点。这里单个密态分片数据不会泄露原始数据的任何信息。每个分区的可信计算节点只接触一份密态分片数据，不接触任何明文数据。多个分区的可信计算节点通过密码协议（MPC、安全联邦学习等）完成目标计算，单一分区被攻破不会产生数据泄露风险。  可信计算节点使用可信计算技术（TEE/TPM/全栈可信等），保证运营者无法进行窥探。  密码协议的同一个角色由一个可信计算分区集群承担，计算资源可以进行动态水平伸缩。  数据采用密态胶囊形式进行存储，包括密态分片数据以及与其绑定的访问规则，运营者无法滥用密态数据。在广告行业中，TECC 可以用于构建面向广大机构的数据流通的平台，一方面让中小企业能够享受到高安全的数据流通服务，另一方面通过多场景的共享，平摊 TECC 的建设成本。

三、受控匿名化

绝对匿名化是指任何情况下都无法识别特定自然人且不能复原，但科学无法证明未知，因此绝对匿名化难以被有效证明。在具体实践中，相对匿名化会是更加切实可行的方案。相对匿名化是指个人信息经过处理，在不结合额外信息、在经典算力和合理时间范围内，无法识别特定自然人且不能复原的技术。受控匿名化是指将相对匿名化的数据限制在受控环境中使用，以确保在受控环境中，达到无法识别特定自然人且不能复原的匿名化效果。通过严格管控受控环境与外界的交互，进而满足了相对匿名化的限制条件，受控匿名化技术中，各参与方首先在本地对数据进行去标识和模糊化处理，并且数据的后续处理和使用也受到严格的管控，通过受控环境来限制其与外部的交互。图 3 所示为典型的受控匿名化流程。

在参与方本地，需要分别对标识符（Identifier，简称 ID）和属性进行处理。首先，参与方在本地对 ID 进行去标识。为保证 ID 能够支持融合碰撞计算，一般通过 HMAC 或确定性加密算法实现去标识。其次，参与方对属性信息进行模糊化处理，可采用泛化、加噪等方式，通过对属性的模糊处理能够进一步降低数据的可识别性。最后，所有参与方完成数据处理后，将数据传输到受控环境中进行融合计算，相对匿名化的数据在离开参与方后仅出现在受控环境中，在研发中的数据展示和结果输出中，需要对数据进行泛化、加噪等模糊化处理，以避免通过结果推断原始数据。受控环境通过可信计算等安全保障技术，可实现受控环境与外部通道交互的严格管控，降低了数据泄露的风险。此外，受控匿名化极大程度地保留了 ID 和属性的数据价值，且计算量小性能高，能够适用于较多数据碰撞、融合计算等场景中。在广告产业中，受控匿名化可以保障数据流通过程中用户的隐私，尤其是同时需要流通身份、属性信息的场景，且由于受控匿名化方案性能损耗小，能够适用大规模或实时运算场景。例如在广告程序化交易流程中，供应方将其用户的 User ID、IP 地址和广告位信息发送给广告主，广告主结合其已有的用户信息，给出更为精准的报价，提升资金利用效率。对受控环境的审核是合规的重要环节。由于广告行业数据传输链路非常多，全部自建受控环境审核压力较大，因此，部分自建、部分适用公共服务，也是平衡上述问题的一种选择。

四、跨域管控技术

在数据流通场景中，跨域管控是指数据离开持有者（也叫数据方、数据持有方）的运维域后，数据方仍然能够有效地控制数据的流转过程，避免其被窃取或者非预期地使用。图 4 是跨域管控技术通用逻辑的抽象示意图。一部分工作需要数据方亲自进行（在数据方域内进行），包括：1）验证数据方域外的环境，以确认该环境是否安全；2）对数据做预处理，以满足后续处理的格式要求，或者减少对外传递的信息量；3）对数据进行加密，并且保证只有前述验证过的环境才能解密；4）当有其他方请求数据时，要对数据进行授权。

在数据方域外，要有相应的机制，提供数据跨域管控的底层基础，如图中的“可控机制”；在此基础上，设计支持数据生命周期管理的相应技术功能，如图中的“可控功能”，这里需要指出的是，跨域可控技术里面的数据生命周期比一般的数据生命周期要更细致，因为任何一个细小的生命周期设计不当，都有可能导致数据泄露，除此以外，数据生命周期的相互转换，也需要进行周密的设计，否则也有可能被攻击者利用。部分域外的功能可以由域外运维者自主控制，叫做非可控功能，包括各种资源的管理、任务的管理、任务与资源的映射、软件环境的维护等。这一灵活度可以很好地提升资源利用率和保障系统稳定性。

参考报告

数字广告数据要素流通保障技术研究报告（2023年） .pdf
- 查看报告