随着GAI 服务技术支持者的技术能力不断提高,GAI 服务提供者的应用场景不断泛化,数据跨境流动愈发频繁,数据跨境传导路径变得更为复杂,数据安全风险也呈指数性上升。
在 GAI 数据跨境场景下,个人信息在不同国家和地区间流动,个人隐私泄露风险显著增加。目前,国内多数 GAI 服务提供者都需要以接入GAI 服务技术支持者的 API 接口或利用 GAI 服务技术支持者的深度学习等模型的方式提供GAI 服务,而相关 GAI 服务技术支持者的服务器多在海外,服务器交换数据过程中就存在数据跨境流动的安全风险。《个人信息保护法》《数据安全法》等法规皆难以调整 GAI 数据出境的全部情形,不对颗粒度进行细化可能造成对数据跨境流动的保护滞后。另外,相关 GAI 服务提供者在获取用户授权参与个人数据的跨境传输时,对哪些数据以及数据加工的程度等内容尚不明确,可能存在用户数据泄露风险。由于数据跨境传输的用户端口呈现点状分布,一旦用户信息进入 GAI 平台系统,平台的信息受众体量将会规模式增长,任何用户均可以对信息进行再加工和再传播,导致潜在的侵权行为不断滋生,并且面临跨国流动的局面。同时,GAI 服务提供者在数据跨境流动过程中,可能利用监管套利,选择对个人信息保护力度较弱的国家或地区存储和处理数据,从而规避更严格的监管要求。数据跨境流动本身的复杂性和隐蔽性也增加了监管的复杂性和难度,[20]导致个人隐私保护面临着“三不管”的窘境。
GAI 产业安全风险可分为 GAI 开发者或部署者自身的产业风险与受GAI 发展影响的相关企业的产业风险。GAI 开发者或部署者的产业风险可从“硬实力”和“软实力”两个维度进行解析。“硬实力”体现为 GAI 服务提供者自身抵御风险的技术能力。在数据跨境传输过程中,由于传输链路延展,暴露的风险面也随之增加。涉及到终端设备、通信链路、数据库、应用系统以及开放API 等环节,都存在潜在的网络攻击面,可能面临数据泄露、篡改或破坏的风险。[21]例如,在数据传输阶段,网络攻击者可能尝试通过中间人攻击、数据包嗅探等手段拦截、窃取或篡改数据传输过程中的信息,从而获取敏感信息或破坏数据的完整性。在数据存储阶段,企业在境外数据中心存储数据,可能面临数据泄露或未经授权的访问等风险,黑客可能通过各种手段获取存储在服务器上的数据。[22]在数据处理阶段,若在境外服务器上进行数据处理时,可能受到恶意软件、DDoS 攻击等网络攻击,导致数据处理过程中断或数据被篡改。此外,在服务部署方面,GAI 开发者或部署者需要防范因地缘政治博弈导致的产业变化。例如,2024 年6 月25日,Open AI 发信告知中国用户,将从 7 月 9 号开始阻止中国地区的API 流量[23]。面对地缘政治博弈下的数据合规风险,GAI 开发者或部署者在制定数据处理和传输策略时,不仅要考虑不同国家和地区的法律法规要求,更要密切关注地缘政治变化可能带来的潜在风险,积极探索有效的合规路径,以规避潜在的法律冲突和政治风险。
“软实力”则涵盖 GAI 开发者或部署者对数据资源的掌控能力以及合规运营能力。一方面,海量数据资源是 GAI 大模型训练和迭代升级的核心要素,企业对数据资源的掌控程度直接决定其在 GAI 产业发展中的主动权和话语权,在数据跨境流动中需要加大对数据资源的控制权与处理权的关注。另一方面,合规运营是企业业务连续性的基石。GAI 开发者或部署者在跨境传输数据时,需要遵守各国的数据保护法规和隐私政策,如 GDPR、加州消费者隐私法案(CaliforniaConsumer Privacy Act, 以下简称“CCPA”)等。任何违反相关监管要求的行为都将面临监管机构的调查,企业可能遭受通报批评、巨额罚款、停业整顿等行政处罚,影响企业品牌形象和市场声誉。随着 GAI 技术的快速发展,各国不断出台和修订 GAI 数据跨境传输的相关法规政策,以应对人工智能和大数据技术带来的新挑战,如欧盟法院无效化《隐私盾牌》后推出新的《欧美数据隐私框架》,迫使 GAI 开发者或部署者在提供跨境服务时能欧频繁、快速调整其数据处理和传输策略,符合各国的合规要求。此外,GAI 模型的训练和部署往往需要跨越多个司法辖区进行海量数据的收集、处理和存储,这使得GAI 数据跨境流动面临着数据管辖权冲突的合规困境。对于 GAI 开发者或部署者而言,如果其数据中心分布在全球多个国家,就不可避免地会受到数据管辖权冲突的影响,进而影响其全球战略布局和业务开展。面对不同国家执法部门的数据访问要求,如果缺乏国家之间相互承认和协助机制,GAI 开发者或部署者可能陷入“遵守一国法律就会违反另一国法律”的两难境地,增加了合规风险和成本,甚至可能面临法律制裁。此外,数据本地化要求将导致 GAI 产业面临“数据碎片化”的风险。为了满足不同国家的数据主权要求,GAI 开发者或部署者可能被迫将数据存储在数据产生地,导致数据分散在全球各地,形成“数据孤岛”。这不仅增加了数据管理和运营的成本,更重要的是,数据碎片化将限制 GAI 模型对全球数据的学习和训练,影响 GAI 大模型的泛化能力、适用性和准确性,最终阻碍GAI 技术的创新和发展,不利于 GAI 技术红利的充分释放。
GAI 显著增加了数据跨境流动中信息泄露的风险,除了可能导致用户隐私泄露外,还可能引发企业商业秘密的非法公开。与传统的数据传输不同,GAI 能够大规模加工和迅速传播信息,并且技术上支持信息在全球范围内的传输,这使得GAI 客观上可能成为信息侵权甚至犯罪行为的工具。对企业而言,一旦商业秘密被非法公开,可能导致竞争优势的丧失,因此商业秘密通常不会在数据跨境流动中涉及。然而,GAI 平台通过频繁的人机互动和强大的数据抓取能力,使商业秘密信息的留痕和非法传输变得可能,从而给企业的发展带来实际利益损失。
GAI 平台极大降低了信息跨境传输的成本,其训练和爬取的数据样本来自全球各地。然而,这些数据样本大多基于西方主流价值观念,使得GAI 参与跨境流动的数据合理性难以保证,具备政治偏见的虚假信息跨境传播将具备更为明显的破坏力,甚至可能引发舆情危机。[24]如果这些数据是非公开且涉及国家或公共利益的,则可能引发国家安全风险。数据跨境流动在极大提升跨国协作效率的同时,也带来了数据主权、国家安全以及数据监管等诸多问题。[25]GAI 数据跨境传输已上升为关乎国家安全和战略利益的核心议题。GAI 对海量数据的依赖性,使得数据跨境流动中潜藏着国家安全和数字主权风险,这两者交织叠加,形成双重挑战。
GAI 大模型的训练和应用依赖于海量数据。中国作为数据创造和消费的大国,在企业生产、政务服务、社会民生等领域掌握了海量的公共数据、企业数据以及个人数据,其中可能包含国家机密、敏感信息以及公民个人隐私等重要数据,具有极高的战略价值。若这些数据在跨境流动过程中遭遇泄露、篡改或丢失,将对国家信息安全和国家利益造成难以估量的损害。以ChatGPT 为例,其用户的个人信息以及后续对应用提出的问题都会被传输到美国的OpenAI 公司,可能被用于商业化乃至政治化利用。[26]若我国用户所提的问题涉及国家安全、公共健康和安全等方面的重要数据,一旦这些数据在跨境流动过程中发生泄露,将对国家信息安全构成直接威胁,成为国家安全体系中的“断点”。另一方面,GAI 数据的跨境传输可能导致大量本国数据流向其他国家或地区的数据中心,形成数据资源的单向流动,削弱本国的数字主权,削弱国家对数字空间的控制能力,出现国家数据控制权的“稀释”现象。