数字广告数据要素流通保障技术有哪些类型?

最佳答案 匿名用户编辑于2023/12/15 10:16

保障技术主要分为两类:匿名化技术,例如假名化、泛化、加噪、 受控匿名化;隐私计算技术,例如可信执行环境、多方安全计算、联 邦学习、可信密态计算。

一、基础安全技术

1. 典型匿名化技术

匿名化是指个人信息经过处理后无法识别特定自然人且不能复 原的过程。匿名化技术通过对数据进行模糊化处理,改变数据颗粒度, 进而降低数据的可识别风险。常用技术包括假名化、泛化、加噪等。

(1)假名化 假名化是使用假名替换真值的技术,通常用来处理直接标识符。 假名化技术一般通过随机假名分配、散列函数、加密算法来实现,使 用过程中需要对假名分配表、散列函数、密钥等辅助信息采取合理的 安全保护措施。 在广告行业中,假名化技术能够很好地隐藏用户 ID、身份证号、 邮箱等直接标识用户身份的信息。但是假名化技术一般是基于密钥、 映射表构建假名和真名之间的连接,数据流通的部分参与者知晓这些 因素,因此它们能够从假名中恢复身份信息。假名化技术主要是保护 身份类信息,无法保护需要参与计算的属性类信息,对于外部攻击者、 部分数据流通参与者,是无法从假名化信息中获得身份信息的。因此, 假名化技术更多的是保护用户的个人隐私,对企业的数据利益保护效 果较小。

(2)泛化(Generalization) 泛化是将属性值抽象为较一般化、不易区分值的过程。泛化技术的目标是减少独特记录的个数,使得泛化后的属性值在多个用户中都 会出现,从而降低从属性反推用户信息的可能性。 除了对单一属性进行泛化外,目前泛化技术研究还考虑了两种扩 展情况:①从多维度属性反推用户信息;②针对流式数据,如何保障 用户信息。前者的典型处理技术包括 k-匿名算法等;后者主要是基于 扰动、树状结构、伪造值和聚类等构建方案。 在广告行业中,泛化能够减少对外传播的信息的量,进而减少个 人隐私暴露以及企业信息泄露的程度。但是泛化也会损失数据精度, 导致部分计算任务无法完成。实际使用中,泛化程度的选择常常令人 左右为难。

(3)加噪 在原始数据上添加扰动噪声,能够降低攻击者识别出数据主体的 可能性。常用的加噪技术为差分隐私,该技术为隐私保护提供了严格 可量化的数学定义。差分隐私算法一般通过在特定分布中生成不可预 测的随机数的方法实现,同时能够保证加噪结果在真实值附近,保留 了数据的统计特征。 按照差分隐私实施的位置,又可以分为本地差分隐私(Local Differential Privacy,简称 LDP)和集中式差分隐私(Central Differential Privacy,简称 CDP)。LDP 一般作用在数据开始计算以及对外传播之 前,比如机器模型训练之前;CDP 一般作用在数据完成计算之后、对 外传播之前,比如数据库返回聚合信息。 加噪与泛化的作用类似,能一定程度上保护用户信息和企业数据利益,但同时也面临“加噪程度如何选择的难题”。

2.可信执行环境及可信计算技术

可信执行环境(Trusted Execution Environment,简称 TEE)提供 一个基于硬件的隔离运行环境,其隔离性不受任何外部软硬件和运营 人员的影响。所以多个参与方可以把数据都放到一个 TEE 中,而不 担心 TEE 的物理持有者可以窥探其中的内容。TEE 还提供远程验证 能力,通过该技术,远程客户端可以确认 TEE 内执行的代码逻辑, 进而可以判断该代码是否会恶意输出数据。与典型的匿名化技术相对, TEE不需要损失数据精度,可以全面保护各种类型的数据;与MPC/FL 相比,TEE 在计算过程中不需要密码学计算和网络交互,性能可接近 明文。 可信计算(Trusted Computing,简称 TC)指的是计算机系统的行 为如预期的计算技术。广义上也包括 TEE,一般情况下特指基于可信 平台模块(Trusted Platform Module, 简称 TPM)、可信平台控制模块 (Trusted Platform Control Module,简称 TPCM)的计算系统度量和验 证技术。在恰当的软硬件配合下,比如去除软件的特权账号、防止物 理攻击内存等,上述技术可以实现抵御物理持有者的攻击。

在广告行业中,TEE 和 TPM 技术可以用来保护各个场景下的用 户数据,对场景和性能的约束很小。它主要缺点是依赖特殊硬件,会 引起一些额外的成本,从现实情况来看,部分广告场景数据量大、数 据价值密度低,额外的成本市场接受度低。TEE 和 TPM 技术一般需 要部署在数据方自己的管理域外,一旦有系统漏洞,数据可能会面临失窃风险。

3.多方安全计算与联邦学习

多方安全计算(Secure Multi-Party Computation,简称 MPC)通 过密码学技术让多方共同计算一个目标且不需要将自己的数据泄露 给其他方。MPC 一般会针对每个基础运算设计不同的协议,再通过 基础运算的组合实现复杂运算。每个基础运算的协议一般都会伴随着 密码学运算和网络交互,所以 MPC 协议一般需要大量的密码学运算 和网络交互。 为了探索技术理论,一些弱化的 MPC 算法会在“参与方不会篡 改本地逻辑”的假设下进行研究,但这种假设一般与现实不符,通常 仅能提供一定的安全性,但无法充分满足现实要求。 联邦学习(Federated Learning,简称 FL)指多个参与方在不交换 原始数据的情况下,仅通过交换模型参数和中间结果,完成机器学习 训练和预测。与 MPC 相比,FL 存在中间变量泄露、被恶意参与方窃 取有价值信息的风险。目前一些 FL 在探索使用同态加密、差分隐私、 TEE 等技术缓解上述风险。 在广告场景中,MPC 和 FL 可用于数据价值大但规模较小的场 景,因为 MPC 和 FL 不需要特殊硬件,部署相对灵活。但与此同时, MPC 和 FL 同样也有着“安全性”和“性能”处于跷跷板关系的困境, 实际使用中需根据情况甄别。

二、可信密态计算

可信密态计算 (Trusted-Environment-based CryptographicComputing,简称 TECC)是指将数据以密态形式在高速互联的可信节 点集群中进行计算、存储和流转的一种可信隐私计算技术。可信密态 计算既能够抵御常见的安全隐患又能够快速处理大规模数据。具体表 现在,它能够缓解供应链攻击、系统漏洞等常见的硬件安全隐患,以 及抵御合谋攻击、恶意敌手攻击等常见的密码协议攻击。同时,它不 受公网传输瓶颈和复杂的密码计算拖累,没有显著的性能瓶颈。

 

数据提供者在本地将数据拆分成多个密态分片数据,并将每 个密态分片数据传递给不同分区的可信计算节点。这里单个密态分 片数据不会泄露原始数据的任何信息。每个分区的可信计算节点只接触一份密态分片数据,不接触 任何明文数据。多个分区的可信计算节点通过密码协议(MPC、安 全联邦学习等)完成目标计算,单一分区被攻破不会产生数据泄露 风险。  可信计算节点使用可信计算技术(TEE/TPM/全栈可信 等),保证运营者无法进行窥探。  密码协议的同一个角色由一个可信计算分区集群承担,计算 资源可以进行动态水平伸缩。  数据采用密态胶囊形式进行存储,包括密态分片数据以及与 其绑定的访问规则,运营者无法滥用密态数据。 在广告行业中,TECC 可以用于构建面向广大机构的数据流通的 平台,一方面让中小企业能够享受到高安全的数据流通服务,另一方 面通过多场景的共享,平摊 TECC 的建设成本。

三、受控匿名化

绝对匿名化是指任何情况下都无法识别特定自然人且不能复原, 但科学无法证明未知,因此绝对匿名化难以被有效证明。在具体实践 中,相对匿名化会是更加切实可行的方案。相对匿名化是指个人信息 经过处理,在不结合额外信息、在经典算力和合理时间范围内,无法 识别特定自然人且不能复原的技术。受控匿名化是指将相对匿名化的 数据限制在受控环境中使用,以确保在受控环境中,达到无法识别特 定自然人且不能复原的匿名化效果。通过严格管控受控环境与外界的 交互,进而满足了相对匿名化的限制条件,受控匿名化技术中,各参与方首先在本地对数据进行去标识和模 糊化处理,并且数据的后续处理和使用也受到严格的管控,通过受控 环境来限制其与外部的交互。图 3 所示为典型的受控匿名化流程。

在参与方本地,需要分别对标识符(Identifier,简称 ID)和属性 进行处理。首先,参与方在本地对 ID 进行去标识。为保证 ID 能够支 持融合碰撞计算,一般通过 HMAC 或确定性加密算法实现去标识。 其次,参与方对属性信息进行模糊化处理,可采用泛化、加噪等方式, 通过对属性的模糊处理能够进一步降低数据的可识别性。最后,所有 参与方完成数据处理后,将数据传输到受控环境中进行融合计算,相 对匿名化的数据在离开参与方后仅出现在受控环境中,在研发中的数 据展示和结果输出中,需要对数据进行泛化、加噪等模糊化处理,以 避免通过结果推断原始数据。 受控环境通过可信计算等安全保障技术,可实现受控环境与外部通道交互的严格管控,降低了数据泄露的风险。此外,受控匿名化极 大程度地保留了 ID 和属性的数据价值,且计算量小性能高,能够适 用于较多数据碰撞、融合计算等场景中。 在广告产业中,受控匿名化可以保障数据流通过程中用户的隐私, 尤其是同时需要流通身份、属性信息的场景,且由于受控匿名化方案 性能损耗小,能够适用大规模或实时运算场景。例如在广告程序化交 易流程中,供应方将其用户的 User ID、IP 地址和广告位信息发送给 广告主,广告主结合其已有的用户信息,给出更为精准的报价,提升 资金利用效率。 对受控环境的审核是合规的重要环节。由于广告行业数据传输链 路非常多,全部自建受控环境审核压力较大,因此,部分自建、部分 适用公共服务,也是平衡上述问题的一种选择。

四、跨域管控技术

在数据流通场景中,跨域管控是指数据离开持有者(也叫数据方、 数据持有方)的运维域后,数据方仍然能够有效地控制数据的流转过 程,避免其被窃取或者非预期地使用。 图 4 是跨域管控技术通用逻辑的抽象示意图。一部分工作需要数 据方亲自进行(在数据方域内进行),包括:1)验证数据方域外的环 境,以确认该环境是否安全;2)对数据做预处理,以满足后续处理 的格式要求,或者减少对外传递的信息量;3)对数据进行加密,并 且保证只有前述验证过的环境才能解密;4)当有其他方请求数据时, 要对数据进行授权。

在数据方域外,要有相应的机制,提供数据跨域管控的底层基础, 如图中的“可控机制”;在此基础上,设计支持数据生命周期管理的 相应技术功能,如图中的“可控功能”,这里需要指出的是,跨域可 控技术里面的数据生命周期比一般的数据生命周期要更细致,因为任 何一个细小的生命周期设计不当,都有可能导致数据泄露,除此以外, 数据生命周期的相互转换,也需要进行周密的设计,否则也有可能被 攻击者利用。部分域外的功能可以由域外运维者自主控制,叫做非可 控功能,包括各种资源的管理、任务的管理、任务与资源的映射、软 件环境的维护等。这一灵活度可以很好地提升资源利用率和保障系统 稳定性。