数据要实现流通,必须解决两大核心问题:
传统数据流通方式是明文数据的复制和传播。由于明文数据几乎没有复制成本,以 这种方式流通数据面临许多不可控的因素,导致数据持有方“不愿流通”和“不敢 流通”。因此,传统通过物品排他性占有来控制其流向和使用的方式,在明文数据流 通中作用荡然无存,需要引入新的机制使数据流通可控,才能构筑数据流通的秩序。
明文数据的复制和传播在混杂了很多数据来源之后,会存在一定的风险。数据大规 模流通实际上是多元多方数据的融合计算。这一过程如同开设“数据化工厂”多种 原料(数据)在一定的配方和条件下(算法)产生化合反应(融合计算)的产物(计算结果), 在创造价值的同时有可能会对他人、社会和国家造成危害或产生重大风险。就像硫 黄、木炭和硝酸钾单个物质在常温下都相对稳定,不属于高危品,但按照一定比例 混台后却能形成炸药,十分危险。典型的现实案例是 2016 年美国总统大选期间,英 国数据分析公司“剑桥分析”(Cambridge Associates)曾利用其之前以学术研究名义合 法从知名社交平台脸书网 (Facebook)获得的数据包并结合其他条件,对用户通信内 容和行为动态等特征班行分析,有针对性地给大量选民发送定制信息,干扰政治舆 论推动民意为特明普团队助选,直接影响了许多州的选举结果。这种以无害理由获 得大量数据,然后用于其他目的,甚至可以影响政治可以说直接危害社会稳定与国 家安全。

这些问题产生的原因是来源于数据流通的所导致的负外部性。负外部性是指在无管 制的状态下,个人或企业不必完全承担其行为带来的社会成本,例如化工企业把污 水排放到河流中、烟民在公共场所抽烟、黑工厂使用童工等。这些行为在给已方带 来利益或满足的同时,对他人或社会带来不同程度的负面影响,但行为方却不必完 全承担这种负面影响的后果或成本。 推动数据有序流通,需要提前构建负外部性的风险防范机制。对数据监管者而言, 加强针对改据流通的监管势在必行。其根本目的就是要管控数据的具体使用目的、 方式和次数,防范数据大规模流通的重大潜在风险和负外部性,如持有数据的组织 在流通中仅自身获得巨大经济收益,但产生致据政视、数据垄斯,侵害个人隐私甚 至国家安全等负面社会影响。
因此,数据的分级保护政策需求应运而生。2021 年 9 月生效的《中华人民共和国数 据安全法》(以下简称《数据安全法》),对数据分类分级做出了专门规定,提出“国 家建立数据分类分级保护制度”。公共数据分类分级对于落实公共数据安全保护、实 现公共数据共享开放具有重要意义。根据数据类型特点等对公共数据分类分级,有 助于明确公共数据的业务归属和重要程度,精准化梳理数据关联性,进一步完善公 共数据安全保护体系建设,从而规避包括混杂数据、“灰色地带”数据、“暗数据” 和“弱隐私数据”等在内的公共数据开放利用中可能出现的安全风险。 目前我国各类与公共数据分类密切相关的法规或标准已经或即将公布。如 2013 年 发布的《信息安全管理要求》规定了信息安全风险评估、处置等要求,2021 年 11 月 出台的《个人信息保护法》规定了敏感个人信息的处理要求,同月发布的《网络数 据安全管理条例(征求意见稿)》再次明确了网络数据分类分级保护制度。此外,正在起草的《信息安全技术网络数据分类分级要求》提出了网络数据分类分级的原则、 方法,明确不同类别级别的数据安全保护要求等。
目前各地方公共数据分类分级标准的虽在具体内容上有所差异,但结构框架大体一 致。比如重庆市的试行标准未单独提出安全性原则,但在综合判定与分级管控原则 中也明确了安全管控要求。上海市分级维度与其他地区不太一致,但但同样考虑到 了数据敏感程度的因素。可以发现,各地方标准在公共数据分类分级基础上都突出 了对可能的数据安全风险及其应对措施的关注。虽然由于利用需求和安全形势的变 化,有关标准会因其稳定性而出现相对滞后性,但我们认为随着政策的逐步推演, 相关的明确标准有望落地并带动行业像规范化的模式发展。 除了数据的分级保护以外,安全可信的“数据可用不可见”交易环境逐步成形也保 障了数据流通的安全。大数据交易中心在数据交易中,可以帮助数据需求方判断数 据的质量和价;数据提供方也由于大数据交易中心审核过需求方的信息,也可以不 用担心数据安全和数据滥用的担忧;数据交易中心还能帮助交易双方更好的定价。 大数据中心以逻辑汇聚方式接入政府、企事业单位的公共数据,提供安全可信的加 工环境供数据服务商开发数据产品和服务,满足各类社会企业的业务需求,以“可 用不可见”方式实现对公共数据的价值利用。且在多地大数据交易中心的设计思路 中,政府认为凡是被政府部门、公共事业单位所掌握,且有市场商业需求的高价值 敏感数据,均应通过交易所进行数据使用权的交易。

不过只依赖“数据可用不可见”依然会在在数据隐私泄露的可能性,因此可信的计 算环境和对下游应用场景的监管也较为重要。因为基于密文计算的数据存在用途用 量超出预期范围的可能,而这种可能性为攻击者提供了额外的信息获取途径,提升 了“侧信道”攻击的成功概率。所以说,不能做到控制数据使用的具体目的和方式 的“数据可用不可见”也是有风险的。对此,隐私保护计算技术在实际应用中,还 需要通过结合基于其他技术的机制(如计算合约),对数据使用进行严格控制。 如果简单的使用数据可用不可见,实际上会存在一定的数据泄露风险。假设某查询 看需要了解某医院人群中患有某种疾病人群的比例,但医院不想查询者知道到底是 谁感染了这种疾病,查询者又知道到底是那些人去了医院。第一天,查询者知道现 有人群中患有该疾病的比例为25%。第二天,医院新接诊了一位该疾病患者小明后, 假设他知道这天只有小明去了这家医院,那么查询者根据新的比做值(上升至 25.5%) 就可推断出小明这个人感染了该疾病,在这种方式下,小明患病的隐私信息就被暴 露了。
但如果简单的加上噪音,则又会导致数据的失真。比如说医院为了保护小明是否患有该种疾病的隐私,决定对患病比例这一计算结果采用差分隐私技术进行处理,即 加人随机噪声使得计算结果模糊化,提升查询者推断到底是谁患有该疾病的具体难 度。比如医院对第一天的查询返回结果 25.35%,第二天的查返回结果 25.30%(随机 噪声使得结果在真实值附近波动)。这样加人差分隐私后,查询者看到两天的结果几 乎没有差异。不过人为加入噪声会降低查询及统计结果的准确度,导致数据可用性 下降,这反而又阻止了数据的流通。
因此从产业发展的角度看来看“数据可用不可见”是手段,数据的分级使用和可信 的计算环境和对下游的监管才是重点。可控可计量的意思是在知道下游客户的使用 场景以及如何使用数据的情况下才进行交易。“使用可控可计量”也为有效监管数据 流通创造了条件、提供了手段,真正推动数据在阳光下使用。对监管方来讲,控制 数据流通使用的目的、方式和次数,能够更容易发现数据滥用行为,杜绝危害公众、 社会和国家的数据滥用:对数据持有方来讲,可以在保持数据持有权不变的情况下, 通过针对数据具体使用的目的、方式次数,履行数据安全责任义务,保障数据使用 安全、合法、合规,对数据使用方来讲,“使用可控可计量”为其自证清白提供了有 效证明;而数据滥用的受害方来讲,“使用可控可计量”可以使及到的伤害和损失更 容易被举证。
目前来看,数据要素的定价还存在诸多不确定性,但是随着政府政策的逐步完善, 数据要素交易有望更好更稳的落地。长期以来,公共财政负担全部成本、政府免费 开放公共数据的模式一直被理所当然地认为是政府数据开放的自然选择,这种认知 源自政务信息无偿公开的传统观念,即全体公民都是政府信息公开的受益者,也是 透明政府建设的监督者,因此,政务数据公开的出发点是监督,具体信息理应免费 公开,使全民都可以无障碍的获得相应信息。不过目前,对于公开数据定价来说, 还有诸多难点。
传统的纯免费或公益性质的数据并不适合现在的市场环境,也无法刺激政府进一步 的开放数据。这是因为政府数据虽然名义上“免费”,但实质是对全体国民无差别收 取等额的公共数据资源税。公共数据资源在政府数据开放活动中被免费向社会供给, 造成政府成本无法被补足的同时,还侵占了政府部门其他项目的原始预算份额。因 此,各个行政部门缺乏向社会供给公共数据的动力,公共数据的供给效率严重低下。 英国测量局就曾指出,美国免费供给公共数据的做法忽略了高质量数据的生产与维 护成本,导致其数据供给实际绩效不佳表现为数据产品的过时和低质量。这种对数 据开放费用补偿问题的忽视,导致的结果就是政府机构缺乏建立数据开放平台的资金,也不愿为这样的基础设施承担责任。
通过制度认可公共数据的有偿开放模式,是我国目前解决政府数据开放发展困境的 基本途径之一。国务院办公厅在 2018 年颁布的《科学数据管理办法》第 24 条规定: “(开放科学数据)确需收费的,应按照规定程序和非营利原则制定合理的收费标准。” 这是我国公共数据资源有偿开放模式迈出的重要一步。气象部门也以“一事一议” 的形式进行有偿数据开放试点。2021 年,十三届全国人大四次会议通过的《中华人 民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》提出,要 以加强公共数据开放共享为目标,“开展政府数据授权运营试点”。根据 2022 年 12 月中共中央、国务院发布的构建数据基础制度更好发挥数据要素作用表示推动用于 公共治理、公益事业的公共数据有条件无偿使用,探索用于产业发展、行业发展的 公共数据有条件有偿使用。
通过这种方法政府也可以让数据开放的中间处理环节转移到政府之外,由非政府主 体承担收益以及商业化责任。在这种情况下,政府不再直接扮演信息的提供者,而 是将其角色转换为公共数据资源的供应方,向社会供给原始的、未经加工解读的公 共大数据,交由企业、社会组织、公民等非政府主体来进行数据清洗或者治理后开 发利用,以创造更大的经济社会效益。这种角色转移有两重必要性:第一,政府在数 据开发利用上并不专业,需要有专业人士、专业组织来对公共数据资源进行充分开 发与利用;第二,产业发展科学研究、公共服务等经济社会事业有着日益增长的数据 需求而拥有大量闲置数据资源的政府理应响应社会需求,将公共数据开放给全社会。
目前数据要素的主流定价方式有三种,分别为成本途径、收益途径和市场途径。
成本途径:数据要素投入具有高固定成本、低边际成本的特点。数据生成信息 时,投入数据采集、运输、计算、存储、分析和保护的固定成本较高,可将其 作为定基准。不过这些数据很难评估不同用户的应用价值差异,同时一些数据 是企业经营的附加产物,获得数据的成本通常难以从业务成本中划分出来,因 而难以定量计算。
收益途径:评估数据对未来经济社会的影响,预测可能产生的未来业务收入,再将未来现金流折现到当前,计算出当前的估值和定价。这种方法的难点在于 数据的经济和社会影响难以建模,而且很难独立估算,且长期价值难以评估。
市场途径:需要数据资产形成成熟、有序且活跃的交易市场,具有大量可观测 的交易数据和数据资产交易信息可以供数据资产的买卖双方进行产品对标、识 别价值驱动因素、量化产品间差异并修正价值。在现阶段,该途径受限于数据 产品市场交易的活跃程度,其运用受到较大限制。
现阶段数据资产有一很明显的特征,即卖方视角对应的价值与买方视角对应的价值 有较大区别,原因在于受制于双方之间天然的信息屏障,卖方无法完全估算买方的 数据使用经济价值。因此在产品估值途径中,成本途径在现阶段已具备应用条件, 收益途径在一定条件下亦可使用,但基于上述分析,成本途径和收益途径尚无法实 现相互验证;而市场途径由于目前缺乏活跃市场及信息披露,暂不适用。
在现实中,政府数据定价模式比上述模式还要更加复杂,因为政府具有较强的公共 属性。因为如果政府直接利用市场的价格机制,将公共数据库这类公共资源直接售 卖给出价高者,不符合社会大众对政府的普遍期望,因为商业数据所产生的成本终 将由最终消费者买单。在这种公共行政伦理的规范下,政府不便直接使用市场的价 格机制为公共数据定价,使得政府进行有偿数据开放时,定价问题成为一大难题。 而且从实际交易上看,政府很难获知数据开放的全部成本,这也压抑了数据开放的 活力。成本定价法会忽略政府生产公共数据资源所消耗的固定成本,而固定成本又 往往远远高于数据扩散的边际成本,结果就是没有足够的补偿来支撑长久的数据开 放活动。即使政府考虑到了固定成本的存在,使用“平均固定成本+边际成本”法定 价,那么这种定价的前提是政府有能力得知数据开放的全部固定成本和边际成本。 政府也不可能获知未来公共数据资源的使用者数量,直接使用平均成本法或边际成 本法会造成补偿不足的现象,从而压抑政府向社会开放公共数据的动力。这是由于 预期收益具有不确定性,买方愿意付出的成本是有限的。
因此,未来定价模式其实更倾向于将数据统一定价,以一个适当超过“平均固定成 本+少数利润”的价格运行。适当超过成本的定价方法,是通过特定受益者承担支付 责任的方式,将特定受益者所获得的部分“特别收益”还原为社会一般利益,整体 上提升社会福祉。欧盟议会在 2003 颁布了一道指令,指出公共数据资源的开发再利 用是以收回成本为目的,而成本的收回包含了“合理的投资回报率”。 很多欧洲国 家都将公共资源的使用收费视为缓解政府整体财政压力的重要手段。例如,法国政 府直接确定,政府公共资源(如数据资源)的收费价格可以确定为“实际发生成本加 上合理利润”。德国政府也允许公共资源收费的价格包含超过成本的溢价部分,并利 用这部分利润来补贴其他亏损的公共服务项目。