数据要素产业链长,核心是资源化与价值化。
数据供给仍保持高速增长。根据 IDC 发布的《数据时代 2025》,2025 年全球每年产生的数据将从 2018 年的 33ZB 增长到 175ZB;中国网络空间研究院、中国信息通信研究院发布的《国家数据资源 调查报告 2021》显示我国 2021 年数据产量达 6.6ZB(+27.9%),仅次于美国 16ZB,占全球数据总 产量 9.9%。未来数据产量的高速增长将进一步带动数据采集行业发展。
市场集中度高,平台厂商形成垄断优势。根据拓尔思发布的《拓尔思数据要素白皮书》,2021 年数 据采集市场 CR4 近 80%,百度、阿里、京东等大厂具备大型数据平台,在基础设施、数字技术、用 户群等方面具备较强优势,能够积累大量数据,并且在采集过程中平台厂商的边际成本远低于中小 厂商,导致采集市场形成垄断局面。
海量数据的存储环节主要涉及传统关系型数据库以及新兴的非关系型数据库。在数据库专题报告: 国产化替代加速推进,数据库布局正逢其时中,我们提到关系型数据库主要对应国产替代市场,非 关系型数据库主要对应数据库增量市场。根据 IDC 预测,2025 年我国数据库整体市场规模有望突破 500 亿元。 数据库增量市场高速发展。目前借助 NewSQL、NoSQL 等新技术架构的非关系型数据库市场规模占 整体的 10%左右,根据艾瑞咨询预测,到 2025 年非关系型数据库有望实现 5 年十倍以上的扩张。在 该市场云厂商占据较大优势。
存量市场国产化加速推进,关注具备核心系统替换的厂商。党政时期替换由于信创名录的强制性, 进入名录的厂商如人大金仓、达梦等深度受益。而进入行业信创时代,以金融为代表的行业对于数 据库的实时性、并发性有着较高要求,且不存在党政领域的强制性名录,因而具备较高技术水平的 厂商如星环科技等有望脱颖而出。

市场竞争激烈,集中度不足 10%。数据加工包含数据清洗、数据处理、数据标注、数据训练、数据 审核等。根据拓尔思的数据要素白皮书,根据艾瑞咨询的测算,2019 年 AI 基础服务行业 CR5 为 26.2%, 行业集中度低,竞争较为激烈。语音和视觉业务代表企业包括海天瑞声和百度数据众包。
AI 技术正逐渐介入,市场集中度有望提升。以数据标注为例,AI 自动预标注的利用大幅提升了标 注效率,同时节约人力成本。借助人工智能技术替代人力进行数据加工是未来发展方向,因此数据 加工厂商需投入大量人力资本进行技术研究。中小型厂商综合实力较弱,未来具备先发优势的品牌 服务商市场份额有望进一步提升。
数据分析在整个数据要素产业链中占比较大,且保持高速发展态势。根据国家工业信息安全发展研 究中心的相关数据测算,21 年数据分析市场规模占整体的 21.5%。2019-2021 数据分析市场规模 CAGR 达 22%,未来 3 年市场规模呈加速上升态势。一方面数据量的增长将会从供给端带动数据分 析市场;另一方面数据分析正逐步深入客户业务系统,由辅助经营决策逐步转为预测性决策,下游 需求进而提升。
细分行业龙头优势突出,工业、电力领域有望快速发展。数据分析与下游紧密绑定,厂商需具备丰 富的相关行业知识和长时间积淀,短时间后发者难以破局。金融领域领先厂商包括恒生电子、同花 顺等;政府领域包括中科江南、拓尔思等。目前金融、政府、电信等行业市场占比较高,而数字化 发展程度相对较弱的工业、电力等行业占比较低。未来随着工业、电力等行业信息化建设的加速, 相应数据分析市场有望快速发展。
区块链技术为数据交易提供保障。传统数据权利确认的方式是向数据确权登记点或数据交易所等第 三方机构提交权属证明,但这类方式存在权利篡改、标准不一以及缺乏技术可信度等问题。区块链 技术具备时间序列、不可篡改等技术特性,在每个数据元素的生命周期内对其归属、操作及使用等 行为进行完整记录,适用于数据确权场景,区块链技术为后续交易环节在技术可信度层面提供保障。

上市公司主要进行区块链建设,市场规模较小。2019 年人民网旗下人民数据管理,以人民链为基座, 在 19 年推出我国首个数据确权平台“人民数据资产服务平台”,23 年 3 月 24 日人民链 Baas 服务平台 (2.0 版本)上线,拥有数字存证、知识产权保护、数字产品、数字确权等众多应用场景。此外,中 科金财、安妮股份、中文在线等多家公司在投资者互动平台表示已将区块链技术运用到数据确权场 景。单数据确权市场规模相对较小。根据中国信通院和中国政府采购网数据,确权服务相关项目招 标金额在百万元级别,而区块链信息服务前十批备案中仅 7%的应用为数字资产、版权保护与交易方 面。
在数据定价环节,厂商能够参与场景较少,因此在该部分,我们主要对数据定价的模式进行研究。 根据中国信通院的《数据价值化与数据要素市场发展报告(2021)》,数据价格涵盖补偿价值、增 值价值、异质性价值以及风险溢价。补偿价值即为成本,增值价值主要指数据的市场价值和社会价 值,异质性价值主要指由于数据结构异质、搜集主体各不相同、价值高度依赖使用场景等因素带来 的和数据交易市场分割产生的价值。
数据定价策略主要分为静态定价策略、动态定价策略以及两者混合的定价策略。静态定价策略主要 以固定定价和差别定价为主,前者对数据根据大小设定一个固定价格;后者根据反应成本费用的不 同比例差异化定价,如对小规模数据免费,大规模数据收取高昂费用。动态定价策略包括自动计价、 协商定价、拍卖式定价,其中自动计价是买卖双方报价在交易系统自动撮合;协商定价是双方通过 协商对数据价值达成一致;拍卖式定价适用于一个卖方和多个买方,在低价基础上买方竞拍。混合 策略则是根据具体情况进行选择,或对数据拆分采用不同策略。目前国内外在不完全市场下的数据 定价策略不同,国外如 Data plaza、Factual 等数据交易平台多采用静态定价策略,国内数据交易所 多采用动态和混合定价策略。
市场规模与场内交易占比有望大幅提升。根据中国信通院和观研报告发布的《数据要素流通视角下 数据安全保障研究报告》和《中国数据交易行业发展现状研究与投资前景预测报告(2023-2030 年)》, 2021 年我国数据交易规模超 500 亿元,但数据交易所/中心为主导的场内交易占比仅为 2%,而 2025 年整体数据交易市场规模有望超 2200 亿元,未来随着数交所数据流通方式多样、公共数据激活、数 据孤岛等问题得到解决,届时场内交易比重有望占总体交易的 1/3,对应数据交易所/中心市场规模 可达 700 余亿元。目前数交所交易规模呈高速增长态势,广州数据交易所、深圳数据交易所 2022 年 所累计交易额超过 17 亿元,2023 年预计破 50 亿元。
场内数据交易所以公共价值为导向,重点关注具备国资背景和全环节覆盖的参股公司。数据交易所 建设环节,上市公司除了为数交所进行区块链建设外,大多数通过参股各大数据所来参与到数据交 易环节。目前数据交易所多为政府推动甚至主导建立,其数据交易所以公共价值为导向,国有资本 控股或 100%持股成为重要趋势。同时“数据二十条”提出数据收益二次分配、三次分配阶段重点要关 注公共利益和相对弱势群体,交易所佣金呈现下降趋势,因此上市公司在该环节多是以股权为纽带 切入数据要素交易市场。在该背景下,参股公司一方面在数据“一级市场”发力,强化供给侧能力; 另一方面在后续流通运营环节大数据以技术服务商的身份,参与公共数据运营服务。因此应当重点 关注具备国资背景,且实现从数据供给到数据交易业务全产业链覆盖的参股公司。