1.1 当下数据市场面临的问题是什么?可信计算解决了什么痛点?
当下数据市场面临的最大问题是什么?毫无疑问,就是隐私泄露问题。近段时间,魔蝎 科技、新颜科技等多家数据爬虫类企业遭遇警方调查,行业内一些大数据相关公司因涉 及违反《网络安全法》和侵犯个人数据隐私案件越来越受到监管部门的关注。随着 2017 年 6 月《网络安全法》的实施,监管部门加强了对个人数据信息的保护和对相关大数据 机构的经营约束,同时《数据安全法》也将加快推出。数据市场的价值释放,首要解决 的瓶颈就是数据隐私泄露的问题。
数据市场将走向何方?数据价值到底该如何释放?全世界都认识到数据的巨大价值,然 而现实的一面是机构掌控下的“数据孤岛”,另一方面是数据泄露的残酷事实。这些因素 构成了数据市场发展的痛点和瓶颈。
面对当下的数据“痛点”,可信计算(安全、隐私计算)是解决数据隐私之痛、释放数 据价值的关键一环。可信计算可以确保数据加密的情况下完成数据协同计算,在可信计 算的助力下,数据掌控者不再担心数据泄露,从而打破数据孤岛,用户对数据隐私泄露 的担忧也得到一定程度解决。这会极大促进数据交换的意愿和数据价值挖掘的力度,释 放数据市场的巨大价值。
例如,在保险机构、医院、监管机构和患者这样的多方关系中,可信计算确保数据加密、 隐私不泄露的情况下,多方进行数据共享,指定相关保险产品方案,改变过去数据彼此 垄断,不敢进行联合数据计算,数据价值沉睡的状况,相反,违法相关法规的违法违规 数据买卖则横行于黑市。
我们判断,未来的数据市场,将会出现一批依托可信计算的平台型公司,充当数据交换 的“运营商”。就像电信运营商之于信息,这些数据交换“运营商”将充当数据存储、 交换和价值挖掘的核心媒介。信息流转于电信运营商的网络中,数据流转于这些平台上, 数据市场开辟出像通信领域一样璀璨多元的创新市场。区块链则为数据市场的价值流转 提供账本平台,AI、5G 将作为技术推动,助力大数据市场的发展。
2.1 数据安全的隐忧:可以不泄露数据内容又不影响数据计算吗?
全球互联网数据量和市场规模持续快速增长。根据 IDC 和 Seagate 联合发布的白皮书, 预测到 2025 年,全球连接数达 1000 亿,为2015 年的 10 倍。全球数据存储量由2018 年的 32 ZB 扩大 5.5 倍,达到 175 ZB。根据中国信息通信研究院调研数据显示,2017 年我国大数据产业规模为 4700 亿元人民币,同比增长30.56%。未来三年,大数据产值 预计将从 2018 年的 6200 亿增长到 2020 年的超过 1 万亿,年复合增长率(CAGR)为 17.66%,处于快速增长阶段。
互联网数据处于“无主”垄断的混乱状态,数据隐私将是未来的最“痛点”。据 BM Security 和 Ponemon Institute 此前发布的《2018 数据泄露损失研究》评估显示,2018 年全球数 据泄露的平均成本为 386 万美元,比 2017 年的报告高出6.4%。该研究还首次计算了与 “超大型泄露(超过 100 万条记录)行为相关”的成本。评估显示,大型数据泄露代价高昂, 百万条记录可致损失 4000 万美元,5000 万条记录可致损失 3.5 亿美元。互联网带来各 种便利的同时人们不应该忘记自身数据处于泄露风险之中,同时数据还在“喂养”互联 网公司的 AI机器人。2018 年的数据泄露事件,最终使得 Facebook 将支付创纪录的 50 亿美元与联邦贸易委员会和解隐私案。移动时代数据隐私的保护呼声愈烈,一方面是人 们对数据作为一种潜力巨大的价值资源的认识越来越清晰,另一方面大量数据天然跟移 动端的行为关联,用户越来越注意数据隐私的保护。过去的互联网模式,数据主要存储 在互联网公司的云端,用户很难声明对数据的所有权;另外,互联网不断产生的庞杂数 据的确权也是出于模糊的“无主”状态,但所有数据实际上都是掌控在互联网公司手中 ——无论他们如何声明不会泄露数据,不泄露数据不代表我们享有所有权。越来越多的 智能服务背后都是来自于互联网公司 AI机器人利用个人隐私数据进行机器学习的结果, 这个过程中,用户是被动的,利益上存在受损的嫌疑。
数据急需隐私之盾,打通数据孤岛和价值沉睡。现实世界中,海量的数据是分布在互联 网中。互联网巨头、金融机构、社会服务机构等等都掌握不同数量的用户隐私数据,形 成一个个数据孤岛。利用 AI算法对这些数据进行价值挖掘将释放巨大的市场价值,但这 一切的前提是用户授权和隐私保护。一方面托管在机构数据中心的用户数据需要有安全 防护,另一方面数据在交换过程中不能泄露,最后一方面在数据价值挖掘过程中,不能 产生数据隐私泄露,这一层是最难的,因为数据计算往往会暴露数据给平台。例如,保险公司在指定用户健康方面保险产品计划时,用户并不想让保险公司知道更多无关是健 康隐私;提供精准营销服务的公司在分析用户行为数据建立用户画像过程中,用户并不 希望自己的隐私数据暴露在第三方面平台里。出于以上考虑,数据托管方和数据所有者 会谨慎对待数据交换和价值挖掘,一定程度上限制了数据经济市场的发展,巨大潜力的 数据价值沉睡在机房中。数据安全总体包括平台运行安全、数据安全和隐私安全。不解 决这些安全问题,数据市场始终难以爆发出活力。
2.2 可信计算成为开启数据经济时代的钥匙
可信计算可作为数据隐私之盾,激活数据经济市场。可信计算可以理解为在保护数据隐 私的前提下,对数据进行安全计算和处理,可信计算主要采用安全多方计算和同态加密 等密码学技术,在数据计算时充分保护数据隐私。现实商业和社会环境中,对来自不同 方的数据进行计算或数据挖掘,就能得到想要的结果,这方面是数据价值潜力巨大。但 是,当处理敏感数据时,一方如何在不知道另外一方的任何个人数据情况下,而得到有 关另一方数据的汇总信息呢?比如,如何保险公司想统计人群中患某种病的统计情况, 如何确保个人的任何信息都不泄露的情况下完成统计呢,这就需要可信计算平台完成。 可信计算可以为数据安全提供可信环境,在数据计算过程中实现数据隐私保护,因此, 作为数据隐私之盾,可信计算将打破数据孤岛,使得数据价值的安全可靠地释放,激活 数据经济市场。在可信计算推动下,数据市场规模有望成倍增长。
3.1 可信计算确保数据加密的情况下完成数据计算
可信计算可以确保数据在存储、流转和处理中全程加密。可信计算的概念最早于 1999 年由 TCPA(TCG 的前身)提出,并没有一个明确的定义,主要思想是通过增强现有的 IT 体系结构安全来确保整个系统安全。可信计算是信息安全领域一个重要的应用和研究 分支,是从系统角度解决当前信息安全隐患的一种有效机制。随着云计算、物联网、移 动计算等技术的发展和应用领域的不断拓宽,数据的隐私和价值潜力越来越受到重视。 无论是数据的提供者还是访问者,对安全要求和重视程度越来越高。因此产业提出可信 计算(trusted computing)的概念,希望能够解决数据存储、流转和处理中全程加密, 既挖掘数据价值又满足隐私需求。国际上对可信计算的研究主要集中在产业界,可信计 算的研究主要包括可信计算机体系结构、可信计算机硬件平台、可信计算机软件平台和 可信网络接入四部分。
基于密码学的隐私安全技术,为数据计算提供可信环境。无论是个人信息、企业商业数 据或独有数据资源在数据交换、存储和计算处理过程中都存在数据泄露的隐患。安全多 方计算、同态加密、零知识证明等密码学算法为数据隐私安全提供了一种解决之道。 比如,基于密码学算法,可以知道小明考试是否及格,但并不会泄露小明的分数;医院 直接可以在可信环境下分享患者数据信息实现协同医疗,同时保险机构可以统计用户某 项健康数据,但并不会泄露用户其他健康隐私;金融机构可以在可信环境中分享数据, 满足风控、征信等方面的数据计算需求;基于可信计算之盾,数据市场的潜力得到充分 释放。
3.2 零知识证明实现计算隐私性简介
零知识证明(Zero-Knowledge Proof)是麻省理工学院研究人员在 20 世纪 80 年代提 出的一种加密方法,是可信计算广泛使用的密码学算法之一。零知识证明或零知识协议 是一种基于概率的验证方法,包括两部分:宣称某一命题为真的证明者(prover)和确 认该命题确实为真的验证者(verifier)。
顾名思义,零知识证明就是既能充分证明自己是某种权益的合法拥有者,又不把有关的 信息泄漏出去,即给外界的 “知识” 为“零”。零知识证明有三条性质:
(1)完备性。如果证明方和验证方都是诚实的,并遵循证明过程的每一步,进行正确的 计算,那么这个证明一定是成功的,验证方一定能够接受证明方;
(2)合理性。没有人能够假冒证明方,使这个证明成功;
(3)零知识性。证明过程执行完之后,验证方只获得了“证明方拥有这个知识”这条信 息,而没有获得关于这个知识本身的任何一点信息。
关于零知识证明,一个有意思的案例即“阿里巴巴洞穴的零知识证明”,可以帮助我们理 解“零知识证明”的原理。一天,阿里巴巴被强盗抓住了,强盗向阿里巴巴拷问进入山 洞的咒语。阿里巴巴知道,如果把咒语告诉了强盗,那么他会因没有利用价值而被杀死; 但如果不说出来,也会被杀死。怎样才能做到既让他们确信我知道咒语,但又一丁点咒 语内容也不泄露给他们呢?这的确是一个令人纠结的问题,但阿里巴巴想了一个好办法, 他对强盗说:“你们在离开我一箭远的地方,用弓箭指着我,当你们举起右手我就念咒语 打开石门,举起左手我就念咒语关上石门,如果我做不到或逃跑,你们就用弓箭射死我。” 强盗们当然会同意,因为这个方案不仅对他们没有任何损失,而且还能帮助他们搞清楚 阿里巴巴到底是不是真的知道咒语这个问题。阿里巴巴也没有损失,因为处于一箭之地 的强盗们听不到他念的咒语,不必担心泄露了秘密,同时他又确信自己的咒语有效,也 避免被射死。强盗举起了右手,只见阿里巴巴的嘴动了几下,石门果真打开了,强盗举 起了左手,阿里巴巴的嘴动了几下后石门又关上了。强盗还是有点不信,说不准这是巧 合呢,他们不断地换着节奏举右手举左手,石门跟着他们的节奏开开关关,最后强盗们相信了阿里巴巴。因此,阿里巴巴既没有告诉强盗进入山洞石门的咒语,同时又向强盗 们证明了,他是知识这个咒语的。
零知识证明过程有两个参与方,一方叫证明者,一方叫验证者。证明者掌握着某个秘密, 他想让验证者相信他掌握着秘密,但是又不想泄漏这个秘密给验证者。 双方按照一个协议,通过一系列交互,最终验证者会得出一个明确的结论,证明者是或 不掌握这个秘密。因此,可信计算正是利用像零知识证明这样的密码学技术可以确保数 据隐私的情况下完成数据计算。
3.3 应用场景案例:矩阵元基于 MPC 和区块链的联合征信查询业务
矩阵元成立于 2014 年,是聚焦于隐私计算和价值交换网络的技术服务提供商,旨在为 数据隐私保护、协同计算提供基础设施和全方位的治理方案,更加简单、安全、高效的 实现数据的充分流动。公司用户征信联合查询业务旨在提供基于区块链的 MPC(Secure Multi-Party Computation)安全多方计算能力,为用户提供可自定义的计算逻辑模板, 及多方接入方式,实现在接入方数据无需归集共享情况下,只向需求方输出征信查询结 果,并能支持将原始数据加密存放在区块链系统中,满足各类审计需求。
例如,保险业需要一个用户征信联合查询平台来成为合作的基石,它既需要满足同业间 的合作需求,又要解决上述的客观问题。而解决问题的关键,就是密码学中最前沿的 MPC 技术,与颠覆了传统货币概念的区块链技术。需求痛点包括:同业间存证合作壁 垒、强烈的计算需求和源数据隔离。
数据在加密情况下进行多方安全计算,全程上链存证,数据安全,监管透明。在用户征 信联合查询平台中,将查询条件告知参与计算的保险公司、医疗机构、其他金融公司的MPC 节点,获取了链上加密数据计算数据的 MPC 节点开始执行安全多方计算,并将结 果返回给查询端,监管端通过区块链专属的 DAPP 访问区块链,并用私钥将加密数据解 密,进行监管审计。只有监管端可以通过 DAPP访问区块链,并查看加密存储的业务数 据,参与计算的各券商并不知道彼此的数据和计算结果,而上链的数据也无法被篡改, 但各个环节都要用公钥加密上区块链进行存证。
保险公司在指定产品业务时所需的大量数据分散在各个机构,通过矩阵元的联合征信查 询业务平台,各个机构可以在充分加密的情况下共享数据,完成多方安全计算,全流程 将登记在区块链上进行存证,任何个人隐私数据都不会被泄露。
5G 管道、区块链加密、AI 数据计算最后的痛点是数据隐私安全,可信计算为之带来“东 风”,释放数据市场巨大价值。纵观整个互联网和 ICT 体系,可信计算都是一个极其重 要的角色。在数字经济时代,基于 5G/IoT 网络的为数据提供通信网络基础,可信计算 作为算法算力的一个重要的安全保障,是的数据隐私得到充分的保护,以此激发算法、 PaaS、SaaS 层的应用,释放数据市场的巨大价值。区块链提供的链上存证体系,以不可 篡改的优势奠定了透明监管的基础。 5G和AI提供生产力,区块链和可信计算提供信任, 一方为矛,一方为盾,共同促进数据市场快速发展。
可信计算解决 AI挖掘数据价值最后的痛点——隐私安全。AI数据价值挖掘显然是一个 巨大的金矿,但目前主要障碍是隐私安全、数据孤岛使得数据参与计算的意愿较低,而 可信计算正是解决这些痛点的钥匙。许多商业社会问题和研究问题都可以通过来自不同 方的数据集的组合来推导出想要的结果。但是彼此都希望保持数据隐私安全,当处理敏 感数据时,一方如何在不知道另外一方的任何个人数据情况下,而得到有关另一方数据 的汇总信息呢?为解决这个挑战,谷歌近期推出了隐私加入和计算(Private Join 和 Compute)的开源库,这是一种新型的安全多方计算(MPC),它增强了核心 PSI 协议, 帮助组织与机密数据集协同工作,同时提高了隐私。所有输入(标识符及其相关数据) 在整个过程中保持完全加密且不可读。任何一方都没有透露他们的原始数据,但他们仍 然可以使用计算的输出回答手头的问题。最终结果是以聚合统计信息的形式解密和共享 的唯一结果。例如,这可以是两组中数据的计数,总和或平均值。
5.1 可信计算开辟数据价值交换市场新的服务模式
基于可信计算平台,可开辟新的服务模式。从可信计算商业图谱来看,布局可信计算的 国内外 ICT 巨头和创业公司主要有硬件+密码学和纯密码学两个阵营,其中有多家区块 链公司——毕竟区块链就是基于密码学技术。这些公司涵盖了云计算、互联网金融、IT 硬件等等领域。大的 ICT 公司可以基于自身商业生态叠加可信计算服务,但考虑到数据 的分散性,要打通数据孤岛,第三方平台公司显然有市场空间。基于可信计算平台,在 数据存储、流转、交易和计算处理过程中提供可信平台或服务,将打造一种新的服务模 式。
可信计算贯穿整个 IaaS 基础算力层、BaaS、SaaS 服务层,可探索更多新商业模式和 领域。5G 时代,大管道作为数据金矿的最基础传输设施,在算力层,可信计算与云计算 同样作为重要的 IaaS 基础设施,算法层面,可信计算和 AI存在一定的融合空间,可以 为数据交换、存储和计算协作的可信环境提供一定的算法支撑,在 BaaS/SaaS 层,可信 计算在数据价值挖掘的环节可以发挥巨大威力,在保险、医疗、科学研究、数据征信、 供应链金融、防伪溯源、社会治理等等各个领域提供基于数据分析是应用服务。数据时 代,可信计算打开数据金矿的一把钥匙,将创造更多的创新服务领域和商业模式。
数据从终端到中心云,可信计算临门一脚,打造数据价值交换“运营商”,打造数据红 利时代。未来的互联网,数据将更多产生于边缘终端,根据 Techno Systems Research 统 计数据,2017 年的全球物联网蜂窝通信模块出货量为 1.62 亿片,到 2022 年将增长到 3.13 亿片。同时,据 Gartner 预测,物联网终端市场规模将达到2.93 万亿美元,保持年 均 25-30%的高速增长。我们可以畅想,物联网时代边缘终端产生的海量数据将在终端 得到安全存储和隐私保护,各类联合机器学习((FL,Federated Learning))算法将在终 端用户授权下,以分布式的方式在终端完成机器学习,输出学习模型而非终端隐私数据, 这些模型在网络中完成协同建模。中心云已有的托管数据也将在安全可信、充分保护隐 私的环境中进行交换和协同计算。一个从终端到云的数据价值交换系统将应运而生,就 像运营商网络之于信息流转,可信计算系统充当了数据价值交换的“运营商” 。系统中, 数据协同计算、节点间数据交换都需要可信计算实现隐私保护和数据安全。可以预见, 依托这样的平台系统,类似互联网生态的各类数据应用市场将不断涌现,打造数据红利 时代。
我们判断,未来的数据市场,将会出现一批依托可信计算的平台型公司,充当数据交换 的“运营商”。就像电信运营商之于信息,这些数据交换“运营商”将充当数据存储、 交换和价值挖掘的核心媒介。信息流转于电信运营商的网络中,数据流转于这些平台上, 数据市场开辟出像通信领域一样璀璨多元的创新市场。
风险提示
可信计算基础设施推进不及预期。可信计算为推动数据价值交换系统建立,涉及终端数 据标准、数据交换平台建设和相关政策法规推进,存在不及预期的可能。
可信计算相关算法研发不及预期。可信计算涉及安全多方计算、隐私计算和多种加密算 法,随着数据的复杂程度、标准多样性不断提升,相关算法的研发存在不达预期的可能。
(报告来源:国盛证券)
登陆未来智库www.vzkoo.com获取高端报告。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)