2023年数据仓库深度分析:从Snowflake快速崛起深度解析数仓竞争要素

一、分析需求增长促数仓快速发展

1、分析需求涌现:从数据库到数据仓库

回顾数据库 70 年发展历程,行业顺应需求变化持续演化。根据我们大数据系 列第一篇《筚路蓝缕,星火燎原——大数据系列(一):数据库深度复盘与展 望》对数据库行业发展的详细梳理:数据库的诞生可追溯至 20 世纪 60 年代, 其主要使命为存储、查询及管理数据,当前正处于以关系型数据库与非关系型 数据库并行发展的时代。关系型数据库占据主导地位,在企业 ERP、CRM 等 核心业务领域被广泛应用。非关系型数据库,包括文档数据库、图形数据库、 时序数据库等,在金融反欺诈、智能制造等特定应用场景具有很好的适配性。

随着企业对数据分析需求的涌现,传统事务型数据库面临瓶颈,数据仓库应运 而生。随着数据规模增长,企业对数据价值挖掘需求快速增长,传统模式下, 企业会根据业务需求,将数据存储在不同的数据库中,部门间数据隔阂难以打 通,产生数据孤岛,为挖掘数据价值带来阻碍。同时企业需通过分析大量数据 以支持经营决策,而主要面向事务处理的传统数据库,其性能难以满足数据分 析等进阶需求。为从大量数据中获得洞察以支持企业决策,数据仓库在此背景 下诞生。

2、数仓核心功能一:多源数据汇集,打破数据孤岛

数据仓库有效打破原有数据孤岛,建立集中存储机制。企业往往会根据业务需 求而存在多种数据库,而数据库由于架构不同、存储容量限制等因素,在数据 集中存储、跨库操作等环节存在诸多问题。数据仓库是将来自不同来源的数据 聚合到集中且一致的数据存储系统中,并解决传统关系型数据库无法跨库操作 的问题,其功能集中于从其他来源提取、清理和准备数据,以及在关系数据库 中加载和维护数据,并通过数据挖掘、人工智能等技术进行数据价值分析。数 据仓库从架构设计来看,分为底层多元异构数据汇聚层、中层 OLAP 处理层和 顶层数据应用层。

底层:数据仓库通过 ETL 过程实现多源数据汇聚。数据仓库对多源数据进行 采集,并经过数据分层处理,得到统一的、规范的数据后可以进行大数据分析, 其核心是把数据从 OLTP 过程转换到 OLAP 平台的一个过程。其中需要对数据 进行操作和建模,这个过程统称为 ETL(Extract-Transform-Load),主要是指 将源数据经过抽取、清洗转换之后加载到数据仓库,目的是将业务库中的分散、 零乱、标准不统一的数据整合到一起,为企业的决策提供数据基础。

中层:数据存储和处理方式层面看,HOLAP 混合型成为重要方向。数据仓库 主要因分析型 OLAP 需求而诞生,其实现路径主要包括 MOLAP、ROLAP、 HOLAP,目前正朝着 HOLAP 混合型方向发展。OLAP 有多种实现方法,根据 存储数据的方式不同可以分为 ROLAP、MOLAP,以及将前两者取长补短的 HOLAP。目前,OLAP 发展更偏向于 HOLAP,因为大厂既不想丢弃一直使用 的关系型数据库,又想在数据分析能力上获得进一步提升,所以 HOLAP 方向 成为更好的选择。

中层:数据建模层面看,从实体-关系模型走向星型/雪花型。数据仓库通过数 据建模,将数据进行关联,主要基于事实表与维度表,通过事实表将各个维度 表进行关联,从而建立完整的数据模型。其中事实表是指处于数据结构的中心, 存储某种业务各个维度的数据,其中各个维度一般都是对应编码,其本质可以 理解为关注的内容索引列表;维度表可以看作是事实表的发散表,对应着事实 表里面的每一个维度。根据业务需要,可以选择需要的细分维度进行分析关联。 本质为将分析目标的多维度内容进行存储。数据仓库的数据模型根据事实表与 维度表的关系可以分为星型(Star)与雪花(Snowflake)模型。星型模型中 所有维度表直接与事实表关联,不存在渐变维度,有一定数据冗余产生;雪花 模型中有一个或多个维表没有直接连接到事实表,而是通过其他维表连接到事 实表上,对星型模型的维表进一步层次化,雪花模型是对星型模型的扩展。

3、数仓核心功能二:通过数据分层解耦合,实现业务与分 析分离

为了防止数据分析对业务数据库的干扰,数据仓库另一核心功能为解耦合:即 通过建立数据仓库达到业务处理与数据分析分离的目的。数据仓库除了将异构 数据库汇集,解决跨库操作的难题外,将分析与业务解耦,也解决了传统数据 库对于分析的诸多痛点。

数据分层是帮助数据仓库实现解耦合能力的关键,避免了因为数据分析而干扰 数据库的业务操作。由于数据仓库需要进行大量数据分析操作,通过建立数据 分层,可以避免用户直接使用操作型数据,并更高效的访问数据;同时,如果 业务发生变化,只需要根据需要调整底层数据,使得业务调整并不会对应用层 产生影响。

4、实时分析需求快速增长,从离线数仓到实时数仓

大数据时代下业务场景不断丰富,实时分析的需求快速增长,传统离线数仓的批 处理引擎难以满足数据分析的实时性要求,以流处理为核心的实时数仓快速发展: 离线数仓擅长深度复杂的分析,但耗时较长无法满足实时性需求。传统的离线 数仓主要采用批处理计算引擎,其优点为对于业务逻辑复杂、数据规模有限的 场景下,具有更好的数据挖掘能力,可以获得更优质的分析结果。但其运算耗 时较长,时间跨度通常为分钟级到小时级,因此难以满足实时分析的要求。

流处理模式强调处理速度,是构建实时数仓的核心计算引擎。实时计算一般采 用流处理引擎,与离线计算相比,流处理减少了数据落地环节,实时对每个新 到达的数据或者比较小的窗口数据进行计算,其分析计算量相对较小,使其可 以在毫秒级到秒级完成,使时延可以达到实时系统要求。目前,实时数仓主要 以 Lambda 架构(离线+实时混合)与 Kappa 架构(纯实时)为主。

5、实时数仓架构演进:从 Lambda 到 Kappa、从集中式到 云原生

(1)从 Lambda 到 Kappa Lambda 由于同时采用离线与实时两套计算引擎,其架构复杂性大幅提升,也 带来一系列问题:1)一个架构需要两套代码,维护繁琐。基于实时与离线两 套架构,需要对两套代码分别修改,独立测试,同步上线,整体开发、维护难 度较高。2)资源占用较高。两套逻辑需要计算两次,系统资源占用较高。3) 实时与离线引擎数据处理差异,易混淆。由于流处理引擎尚不完善,离线处理 会对实时处理的结果再次计算,最后以离线处理为准,数据频繁变更,容易引 起混乱。

随着 Flink 等流处理引擎逐步成熟,采用纯实时计算的 Kappa 架构出现,解决 了两套代码问题,但由于采用全流处理流,其吞吐能力弱于 Lambda。因此, 在真实的场景中,很多时候采用 Lambda 与 Kappa 混合架构,比如大部分实 时指标使用 Kappa 完成计算,少量关键指标(如金额)使用 Lambda 架构用 批处理重新计算,增加一次校对过程。

(2)从集中式到云原生 顺应市场需求变化是数据仓库发展的核心驱动力,目前正处于向云原生算储分 离方向发展。1)初代数仓采用集中式部署,其扩展成本高昂,且存在瓶颈, 随着企业业务数据爆发式增长,集中式部署存在明显瓶颈;2)第二代数仓采 用 Hadoop 等分布式开源框架,相较于集中式部署,其具有灵活扩展能力, 对于算力与存储容量等方面均有大幅提升;3)随云计算的普及,第三代数仓 向云托管发展,扩展能力与运维成本更加友好,但数据仓库架构仍未解决存算 一体化的根本问题:使用存算耦合架构时,两种资源互相影响,需同步扩/缩 容,无法根据需求灵活、合理匹配资源,经常造成资源的浪费和闲置。

以 Snowflake 为代表的第四代云原生数据仓库,采用算储分离架构,使得资 源分配更加合理。Snowflake 基于云原生的数据仓库平台,首创“存算分离, 支持单独扩展”,实现两种资源的“弹性使用”,使得企业可以根据自身业务需求,对存储容量与计算资源进行合理分配,并通过数据仓库平台为企业提供存 储、访问及数据分析能力。

二、国外市场新老玩家各具优势,国内市场云厂商占 据主导

1、数仓作为技术底座,有望受益于 BI 需求增长

数据仓库是 BI 的技术底座,有望受益于 BI 需求增长。数据仓库根据 Gartner 等官方定义:即多个数据库上的大容量存储库,它的作用在于存储大量的结构 化数据,并能进行频繁和可重复的分析,帮助企业构建商业智能(BI)。可以 理解数仓即 BI 的技术底座,通过从多源数据库系统提取数据,进行清洗、转 换、标准化等操作,将数据加载到 BI 平台,进而满足业务用户的数据分析和 决策支持。

现代 BI 及分析工具细分赛道领涨商业智能市场大类。根据 Gartner,现代 BI 及分析工具市场 2015 年和 2019 年增速分别为 63.6%、17.9%,均为大类中 增长最快类别;预计全球现代 BI 及分析工具市场将从 20 年起以 CAGR 为 16% 的增速增长至 26 年的 130 亿美元,实现规模翻倍。据研究机构 Modor Intelligence 预计,全球数仓规模将与 BI 需求增长保持一致,2023 年全球数仓规模约为 90.1 亿美元,预计 2028 年将达到 152.5 亿美元,2023-2028 年复合 增长率为 11.10%,其中以中国为代表的亚洲地区将是主要增长驱动力。 我们认为未来企业产生的数据将继续呈爆发式增长,随之而来的是企业从海量 数据中获取洞察以辅助决策的需求增长。对 BI 应用的落地场景将不断丰富, 作为其技术底座的数据仓库应用亦将持续受益于前端 BI 的增长。

2、海外市场:新老玩家角逐激烈,同质化较高,以分析能 力与生态建设为重要发力方向

数据库云化是行业发展重要趋势。Gartner 研究显示,2018 年全球数据库管理 系统收入增长 18.4%(其中云数据库管理系统收入增长 68%),达到 460 亿 美元。到 2022 年,75%的数据库都将部署或者迁移到云数据平台;到 2023 年,云数据库管理系统收入将占数据库管理系统市场总收入的 50%。 传统科技巨头布局较早,凭借其完善的生态,占据大量市场份额。Microsoft、 AWS 等云服务龙头凭借在云数据库布局,并通过自身客户规模与完善的生态 在云数据仓库市场取得较高份额;Oracle、IBM、SAP 等老牌关系型数据库龙 头,凭借在数据库领域的先天优势,在数据仓库方面也取得领先优势。 以 Snowflake 为代表的新势力快速崛起。

以 Snowflake 为代表的新兴厂商具 备以下优势:1)支持多云灵活部署。Snowflake 把自身架构同时部署于三大 公有云之上,根据 Snowflake CFO,截止 22 年 7月 AWS 承载 Snowflake 80+% 的工作负载,其余 18%分布在 Azure 上,2%分布在 Google Cloud Platform 上,在多云支持方面具备优势。2)算储分离新型架构。Snowflake 率先采用 算储分离弹性架构,在成本端更具优势,具有先发优势,在前期快速抢占市场 份额。而传统厂商主要基于 MPP 架构,对存量的架构升级投入较大,具有一 定滞后性。

(1)微软 Azure Synapse:可实现多源数据集成,聚焦上层 BI 应用 Azure Synapse 聚 焦 上 层 BI 应用。 2016 年 Azure SQL Data Warehouse(Azure Synapse 的前身)诞生。2019 年底微软宣布将 SQL Data Warehouse 升级为数据仓库+数据分析一体化平台。Synapse 可实现多源数据 集成:可以将本地数据、私有云/公有云数据、SaaS 等多种数据源加载到 Synapse中。与Snowflake相比,Synapse更聚焦于上层的BI应用;且Synapse 与微软生态中其他应用协同,云数据生态系统成熟度高。Synapse 可与 Power BI 实现数据的可视化;与 Azure Machine Learning、SQL 和 Spark 深度集成 以训练机器模型。

(2)Amazon:AWS Redshift 引入 RA3 节点实现存算分离 AWS Redshift拥有庞大的 Amazon 生态作为支撑,与 AWS产品等无缝连接。 作为 Amazon Web Services(AWS)生态系统的一部分,Redshift 数据仓库服务 提供了诸如将用户数据从数据湖中导出,并与其他平台(如:Salesforce、 Google Analytics、Facebook Ads、Slack、Jira、Splunk、以及 Marketo)相集 成等服务。此外,Redshift 仓库服务使用列式存储、数据压缩、以及区域映射, 来实现高性能和高效存储。与其他云原生数据仓库相比,Redshift 劣势在于维 护难度较大。Redshift 需要大量手动维护,且需要有一定 AWS 架构知识的人 员监控集群以提高性能。

Redshift 迎合行业“存算分离”趋势较慢。由于 AWS Redshift 本身采用 MPP 架构,即存储与计算共享一个节点,数据存储在计算节点中(下图中红框)。 随其他巨头数仓产品相继效仿 Snowflake 采取创新架构,而未实现存算解耦的 Redshift 受到诟病颇多。为迎合客户需求与行业趋势,Redshift 后于 2019 年 底引入节点“RA3”实现存算分离,支持存储和计算资源的独立拓展。

(3)Google:BigQuery 特有元素鲜明,生态完善 云原生数据仓库 BigQuery,源自谷歌内部工具的整合。起初,Google 发明 工具 Colossus,Jupiter 和 Dremel 以解决海量数据的存储和查询需求,且仅 供内部使用。其中 Dremel 是 BigQuery 的查询执行引擎,高度可扩展的系统, 旨在对 PB 级数据集处理;Colossus 是分布式文件系统,用于数据的备份; Jupiter 网络是 Colossus 存储和 Dremel 执行引擎之间的桥梁。后 Google 将 这些工具整合到谷歌云平台上并对外产品化,更名 BigQuery。

BigQuery 基于谷歌强大的技术与生态加持,在机器学习、大数据分析等方面 具有较强优势。其中 BigQuery ML:使用 SQL 即可进行机器模型的训练和使 用,目前支持包括 K-means、深度神经网络等 10 种模型;BigQuery GIS:实 现对地理空间分析的原生支持,进而挖掘位置信息价值;高级分析功能 BigQuery BI Engine:允许用户以互动方式分析 BigQuery 中大型数据集。大 数据生态系统集成:BigQuery 借助 Dataproc 和 Dataflow,实现与 Apache 大数据生态系统的集成,Hadoop/Spark 能够使用 Storage API 直接从 BigQuery 读写数据。

数据仓库产品功能具有一定同质化,以机器学习为核心的分析能力与生态建设 是重要发力方向: 海外云数据仓库产品功能同质化较高:Snowflake 率先实现存算分离掀起行业 变革浪潮,巨头纷纷效仿,优化自身架构,均以实现存算弹性化;提升以机器 学习为核心的分析能力是各厂商重要的发力方向,科技巨头与自身技术积累结 合,Snowflake 则是选择与第三方平台(Zepl)等进行合作。 科技巨头数仓可以与自身生态无缝集成,具备先天优势:亚马逊、谷歌及微软 等凭借完善的生态体系,与其数仓产品进行功能协同,增加各自数仓的竞争力, 提供与其他产品无缝衔接的使用体验,具有先天优势;Snowflake 也在通过 Snowflake Partner Connect 的合作伙伴,不断强化自身生态建设。

3、国内市场:与海外厂商差距缩小,云厂商占据主导

中国大数据软件规模占比与海外仍有较大差距,“十四五”期间有望快速发展。 根据 IDC,2021 年全球大数据市场的 IT 总投资规模为 2,176.1 亿美元,并有 望在 2026 年增至 4,491.1 亿美元,2021-2026 年 CAGR 约为 15.6%;中国市 场方面,2022 年中国大数据市场总体 IT 投资规模约为 170 亿美元,并将在 2026 年增至 364.9 亿美元,实现规模翻倍。与全球总规模相比,中国市场在 五年预测期内占比持续增高,有望在 2024 年超越亚太(除中日)总和,并在 2026 年接近全球总规模的 8%。

作为大数据市场中高增长细分赛道头部选手,数据仓库具有较强成长潜力。数 据分析需求在海量数据时代不断增长,大数据技术是满足数据分析需求的有利 工具,其核心在于从海量数据中挖掘价值,而数据挖掘与分析链条的第一环即 是数据仓库。我们认为数据仓库成长空间有望与数据分析需求市场空间保持同 比例增幅。根据 IDC《2022 年下半年中国数据仓库软件市场跟踪报告》,2022 年中国数据仓库软件市场规模为 8.7 亿美元,同比增长 23.7%。其中,本地部 署数据仓库软件规模为 4.6 亿美元,同比增长 12.5%;公有云数据仓库软件规 模为 4.1 亿美元,同比增长 39.3%。到 2027 年,中国数据仓库软件市场规模 预计将达到 27.3 亿美元,2022-2027 的 5 年市场年复合增长率(CAGR)为 25.7%。

Gartner 魔力象限显示中国厂商实力不断增强,与海外巨头差距正持续缩小。 2016 年星环科技进入 Gartner 数据仓库和数据管理魔力象限的远见者象限, 在前瞻性维度上优于 Cloudera、Hortonworks 等美国主流大数据平台厂商, 是国内第一家入选厂商;2017 年华为云入选,2018 年阿里云入选,2021 年 阿里云已进入云数据库管理系统的领导者象限。

与海外相似,在国内数仓竞争中,云厂商占据主导。根据 IDC,国内市场对大 数据平台需求较高的行业主要包括政府、金融、运营商、互联网等行业。1) 传统政企、金融等领域对于大数据建设的关注点在于软硬件的高度集成,安装 部署实施运维服务,以及在大数据平台之上的数据分析应用,其中华为云具备 完善的产品体系以及在政企等大客户积累广泛,具有较强竞争优势;2)互联 网行业,用户的关注点在于弹性可扩展、性能、成本与性价比,并且对最前沿 的技术高度关注,阿里云凭借其在公有云上积累的大批互联网行业用户,牢牢 占据公有云数仓主要份额;3)亚马逊云科技则依托智能湖仓一体、全面丰富 的数据管理及分析产品组合在中国市场获得大批公有云用户。

(1)阿里:AnalyticDB 精细打磨,性能不凡 AnalyticDB 是经阿里巴巴内部精细打磨的云原生数据仓库,性能超前。2012 年 AnalyticDB 在集团内部上线,2014 年借助阿里云正式对外输出。2019 年、 2020 年均被全球知名的数据管理系统评测标准化 TPC 组织评为全球最快的实 时数据仓库。其架构主要分为 3 部分:1)数据库级别服务组件:包括前端节 点、计算节点和缓冲节点。2)集群级别服务组件:包括一系列面向开发人员、 管理人员的服务。3)数据模型:分为事实表组和维度表组,数据模型是支撑 其实现单数库 PB 级数据实时分析能力的关键,阿里云上某客户曾单日分析查 询超过 1 亿次。

AnalyticDB 自研核心技术领先业界:1)高性能 SQL Parser:曾经的主流 SQL 语法解析器 Antlr,JavaC 无法满足 AnalyticDB 需求,阿里巴巴引入自研组件 FastSQL 提高查询与实时写入能力。2)玄武存储引擎:读/写分离,可分别独 立扩展,海量数据写入不影响查询分析性能。

(2)华为:从 GaussDB(DWS)到一站式数据平台 2020 年 8 月,华为云发布 GaussDB(DWS)实时数仓,主要覆盖数据库迁移、 交互式 BI 分析、数据湖分析、实时数据分析四大应用场景。其中数据库迁移 指提供配套迁移工具,数据可从常用数据系统平滑迁移;交互式 BI 分析指实 时整合业务数据,及时优化、调整经营决策;数据湖分析指整合数据资源,构 建大数据平台,使用 SQL 语言即可访问数据。实时数据分析指快速入库和数 据查询功能支撑来自 IoT 和互联网等数据的实时分析。 针对上述应用场景,华为配备附属性业务提供全面的解决方案、扩大产品边界。 华为云为数据湖分析场景搭配 MRS 服务(提供企业级大数据集群云服务,运行 Hadoop、Spark 等大数据组件),数据湖分析可进阶为“华为云 FusionInsight 智能数据湖”,提供贯穿数据生命周期“采、存、算、管、用”的大数据平台 解决方案。

(3)腾讯云数仓 PostgreSQL 围绕核心业务展开 腾讯云数据仓库 PostgreSQL 基于 MPP 架构,并对接丰富开源生态工具。云 数据仓库 PostgreSQL (原 Snova 数据仓库)为用户提供简单、快速的 PB 级 云端数据仓库解决方案。借助云数据仓库 PostgreSQL,客户可使用丰富的 PostgreSQL 开源生态工具,实现对数据仓库中海量数据的即席查询分析、 ETL 处理及可视化探索;还可以借助云端数据无缝集成特性,分析位于 COS、 TencentDB、ES 等数据引擎上的 PB 级数据。腾讯云数据仓库是一种基于 MPP(大规模并行处理)架构的数仓服务,未实现存算分离,本质上更接近于 第三代数据仓库。

腾讯云数据仓库 PostgreSQL 围绕腾讯核心的金融、游戏等领域开展经营分 析决策、海量日志分析、用户行为实时洞察三大应用场景。经营分析决策指在 金融、零售等领域,对多种业务数据汇总分析,以掌握公司经营情况、提高决 策精准度。海量日志分析指在互联网金融、游戏、O2O 等领域,分析 PB 级 用户行为、系统日志、订单等结构化或半结构化数据。用户行为实时洞察指在 互联网、游戏领域,对用户行为实时分析、优化运营策略。

(4)星环科技:高度自主,具有多模等先进技术储备 星环科技的大数据基础平台 TDH 具有以下重要特点: 支持多种数据结构,拥有多模型技术。传统 Oracle 等关系型数据库仅能 支持结构化数据,公司产品除结构化数据外还可以支持图、文档、时序、 时空地理等在内的多种半结构化和非结构化数据,且拥有统一 SQL、计算 引擎对多源异构数据整合,打通不同类型数据库之间的数据孤岛; 高度兼容 SQL,可以实现对 Oracle 等传统数据库的平滑替代。TDH 已 经兼容大部分 SQL 99、SQL 2003 OLAP 标准;同时,逐步实现了对 Oracle、 IBM DB2 和 Teradata 等数据库 SQL 方言的支持,以及 Oracle PL/SQL、 IBM DB2 SQL PL 等 SQL 扩展; 采用分布式技术。支持分布式事务,保证数据的一致性和准确性,并将分 布式事务处理能力用于数据仓库等核心数据业务系统中。 

采用容器技术。TDH 采用容器技术来部署、调度和管理,从而可以适配 更复杂的异构硬件资源以及降低系统的运维难度。 高度自主研发。公司 TDH 产品技术基本实现全部自研,不依赖主流开源 技术,这是公司区别于其他市场参与者的重要特征。开源技术进入壁垒低、 成本低、修改灵活,是当前市面上大多数大数据基础平台的选择,但为适 应传统硬件特性而设计的开源技术架构存在局限性,且目前数据库开源体 系由国外主导,其修改和发行等仍然要受到版权法或者开源软件许可证的 制约,在逆全球化背景下,公司采取全部自研策略、突破核心技术瓶颈具 有重要意义,既体现公司硬核技术能力,又能获得对安全性要求高的客户 青睐。

三、颠覆传统数据仓库市场的 Snowflake

1、从算储分离技术创新和业务创新看 Snowflake 崛起

Snowflake 将存储和计算功能分离是区别于传统数仓最大的技术革新。传统 数仓无法实现存储和计算单独拓展,而 Snowflake 存算分离架构实现“不影响 数据库(存储层)工作状态的条件下,根据需求动态匹配计算资源”。没有查询语 句执行时,可彻底“关闭”计算资源,减少资源浪费。 提供横跨多个公有云的存储、迁移服务是 Snowflake 最亮点的业务创新。为 平衡商业、技术等风险,企业倾向选择多家云服务厂商部署资源,例如 Salesforce 与 Google、IBM 等多个云服务提供商开展合作。多云平台带来操 作复杂性,为数据整合、同步、对接带来困境,而 Snowflake 允许用户将数据 存储三大公有云中且提供云间迁移服务。 根据 Forrester 咨询公司对四家 Snowflake 客户的调查,Snowflake 预计在三 年内帮助客户累计获得超过 2150 万美元的收益,承担的成本为 300 万美元, 投资回报率为 612%。

2、以数仓为核心,不断扩大功能边界

Snowflake 从单一数据仓库产品向数据融合、智能实时分析等方向拓展,不 断朝着数据云一体化方向进化。Snowflake 打破传统数据仓库发展桎梏,持续 提升产品能力。根据最新的 Gartner 云数据管理系统(Cloud DBMS)魔力象 限统计,Snowflake 的技术创新加速行业升级变革,成功由 2020 年的挑战者 升级为 2021 年的领导者。Snowflake 于 2014 年推出云数据仓库产品,实现 数据高效存储和计算;2019 年数据仓库进化为云数据平台,实现数据的合并、 分析等功能;2020 年云数据平台升级为可看作生态系统的数据云,用户、合 作伙伴、数据提供者可在 Snowflake 平台内紧密交互,深度挖掘数据价值,实 现数据分析和决策。

3、架构创新:横跨三大公有云,算储解耦

Snowflake 平台建立在三大公有云上,由 3 个独立的可拓展层组成。Snowflake 的云原生架构部署在横跨全球 22 个地区的三个公共云 Google Cloud、AWS 和 Microsoft Azure 上。中心存储层:基于三大公有云的存储设施,可存储结 构化和半结构化数据,独立于计算资源进行扩展并对数据自动分区。Snowflake 允许用户将数据存储在三个公有云任意之一。多集群计算层:虚拟数据仓库是 计算集群的核心,数据查询在此完成。每个虚拟仓库都是一个计算集群,集群 使用多个云提供商提供的计算节点,由 Snowflake 分配组成。云服务层:与客 户直接交互的接口,包含一系列的服务,可执行优化查询、系统监测、数据治 理等功能。

4、商业创新:算储分离下,实现单独、弹性计费

收费模式灵活创新,将存储、计算、转移项目单独计费,有助于降低客户使用 成本。Snowflake 存算分离的架构使收费项目的单独计费成为可能:过往使用 云服务时,厂商不会公布存储和计算资源分别消耗多少,而 Snowflake 开创单 独计费的先河。Snowflake 的产品收入可看成三部分:来自存储、计算和数据 传输的费用,但 Snowflake 是将三种服务视为统一整体,即计算、存储和数据 传输共同推动用户消费。 Snowflake 采用关键客户精准营销(Account-based Marketing,ABM)方法 提高营销效率。ABM 是一种针对性较强的营销方法,针对特定潜在客户和高 价值的客户提供个性化的营销。Snowflake 销售重点放在大型组织上,营销方 式的成功在 Snowflake 高净收入留存率中可见一斑。

5、成本优势:Snowflake 存储资源价格优势明显

Snowflake 采用关键客户精准营销(Account-based Marketing,ABM)方法 提高营销效率。ABM 是一种针对性较强的营销方法,针对特定潜在客户和高 价值的客户提供个性化的营销。Snowflake 销售重点放在大型组织上,营销方 式的成功在 Snowflake 高净收入留存率中可见一斑。

6、财务与业务分析:营收亮眼,规模效应加强,客户留存 能力较强

营收增长强劲,产品收入占比高。Snowflake FY2020-FY2022 增速均超过 100%,产品收入是指 Snowflake 将存储、计算和转移数据所消耗的资源作为 整体向用户收取的费用,专业服务和其他服务包括咨询、为客户培训及现场技 术解决方案,产品收入占据绝大部分营收。 随着规模效应不断强化,盈利能力持续改善。随着用户规模不断扩大,公司净 利率持续回升,盈利能力不断改善;同时得益于云服务购买基数增大带来折扣, 毛利率稳步提升。但我们认为,因需从第三方采云服务基础设施,Snowflake 毛利率提升空间有限。

营业成本主要由第三方云服务基础设施(即产品收入成本)成本构成,主要包括 存储、计算资源。Snowflake 盈利模式为:购买公有云基础服务-为客户分配存 储和计算资源-通过数据资源的消耗和集成外部应用形成增值产品。因此购置 第三方云服务基础设施成本比例较高。 剩余履约合同(RPO)的增长反映 Snowflake 产品获得认可。据公司招股书, RPO 的提升主要是由于客户在与 Snowflake 签署合同时间更长、规模更大的 资源预留合同,部分订单金额攀升和服务期限延长表明 Snowflake 产品认可度 较高。

业务方面,Snowflake 获得大量财富榜单公司青睐。2020 年 1-7 月,来自 7 家财富 10 强公司和 146 家财富 500 强公司的收入比例为 4%和 26%。 优异的净收入留存率反映客单价的提升和高用户粘性。FY2020 的净收入留存 率为 169%系由于资源预留合同价格同比增长 12%。我们认为,Snowflake 留 住客户的能力较强且客户粘性极高。 高付费能力用户为 Snowflake 持续付费意愿强。Snowflake 有 56 个客户在 2019 年 8 月-2020 年 7 月间贡献收入超过 100 万美元,这些用户合共贡献对 应时期营收的 46%。而这一数字在 2019 年 7 月仅为 22 个客户,贡献相应时 期 47%的营收。

四、Snowflake 核心竞争优势及发展启示:高性能、 三方身份、网络生态圈

1、高性能是数仓重要指标

Snowflake 数仓在性能方面处于行业领先水平。根据我们开篇的分析,数仓性 能取决于架构、模型选择、数据分层优化等多方面因素,在产品优化方面具有 较高难度,Snowflake 多项测评均处于行业前列,显示出其产品具有较强市场 竞争力: Snowflake 语句执行时间短,产品性能方面具有领先优势:GigaOm 对时下最 热的四大云数据仓库 SDL DW(Synapse 前身)、AWS Redshift、Snowflake 和 Google BigQuery 进行测试,该测试共执行在 22 个查询语句,包括查询总和、 平均值、表间 JOIN 连接等操作。在部分语句执行结果中,Snowflake 表现较 为突出,运行时长较短。 Snowflake 产品具有较高的稳定性:在根据执行时间标准差判断产品稳定性中, Snowflake 命令执行时间总体方差较小,表明 Snowflake 在执行查询及数据分 析时性能表现较为一致。

2、专注于数仓的第三方身份更易受客户青睐

多云部署逐渐成为企业的主流方案,潜在需求市场广阔。多云战略意指企业同 时购买多家云服务,同时将数据和 IT 资源部署在多个云中。据 IDC 2020 年研 究表明,55%的组织选择会在多个公共云上运行服务,其中 21%的组织表示 使用 3 个云或更多。

中立性是 Snowflake 与大型云服务提供商的最大区别:Snowflake 深度洞察 到企业对多云战略的需求,作为专注于提供云数仓存储服务的第三方厂商,其 中立性更易受客户青睐。Snowflake 于 2014-2019 年间陆续在三大公有云上运 行。目前大型公有云服务商未提供与其他云服务商无缝对接的能力,Snowflake 允许客户在任意一家公有云上存储数据、在不同云间无缝迁移数据,能够帮助 分摊客户依赖、绑定单一厂商带来的多重风险,包括技术与业务风险(减少单 一云出现服务中断造成的损失)、议价风险(间接提升客户的议价能力,降低 单一厂商提价风险)等,客户可对比多家云服务质量,根据自身需求灵活变更 厂商。

3、依托网络效应构筑生态护城河

Snowflake 强大的分享、交换机制带来的网络效应逐步建立护城河。 Snowflake 赋予用户分享数据的能力,将数据提供商、合作伙伴和客户紧密结 合且。Snowflake 的用户及分享的数据的增长会带动合作伙伴或数据提供商加 入 Snowflake。随数据不断迁移到数据云,这种网络效应的正向反馈会不断扩 大 Snowflake 数据云的边界,形成一定的规模效应后会转化为 Snowflake 的生 态护城河。

生态系统内成员价值得到发挥,需求得到满足。数据提供商:2020 年 3 月, Starschema(领先的数据提供商)在Snowflake上发布其COVID-19流行病学数 据,截至 2020 年 7 月 31 日,数百名 Snowflake 的客户利用这些数据分析疫 情对自身业务的影响;Snowflake 提供专门的数据连接器,Adobe 的用户可以 直接分析数据、改进策略。应用开发商:Lime 是短途出行共享平台,提供共 享单车、电动单车及共享汽车服务,其借助 Snowflake 发布骑行路线数据,协 助智能出行系统开发。科技厂商:Tableau、Qlik 通过与 Snowflake 的集成实现高性能数据处理,改进现有用户体验、扩展客群。Snowflake 作为连结器, 粘合众多伙伴,平台溢价不断提升。

4、增长看点一:数据量爆发式增长下,数仓需求快速增长

从行业趋势看:数据量爆发式增长下,对数据分析及数据仓库相关需求将快速 增长。据 IDC 预测,2025 年全球数据圈数据总量将达 175ZB,其中超过 25% 是实时数据;而 2018 年全球数据圈数据总量仅为 33ZB ,呈现爆发式增长。 数据量的激增或将带来成倍的数据分析需求:企业对从数据中获取洞察的需求 日益增长,实时数据分析需求尤甚。我们认为,作为数据分析工具后端引擎的 Snowflake 将继续受益于行业需求的增长。

Snowflake 通过更低的成本优势,向中小型企业拓展,纵向注重渠道下沉。 先前提及大型客户是 Snowflake 的营销重心。通过对比 Snowflake 及目前主流 云数仓产品客户结构,我们发现Snowflake客户中营收超过10亿的比例较高, 而营收小于 100 万美元的客户比例仍有提升空间,未来 Snowflake 可以注重 中小型客户池的开发,优化客户结构。

5、增长看点二:以数仓为核,向 BI 融合

数仓作为 BI 的技术底座,Snowflake 已具备 BI 雏形。在 BI 架构中,数据仓 库上承面向用户的应用,下接多类型源数据。Snowflake 已经紧握 BI 的重要 引擎---数据仓库,依靠自身数据仓库标准化高、普适性高的优势,发展面向多 行业的差异性产品。 Snowflake 目前聚焦在 BI 产业链中部的数仓功能,缺少原生的数据分析上层 应用。主流的 BI 应用如 Tableau、Looker、PowerBI 更专注于数据的可视化, Snowflake 目前攻破更为底层的存储、计算功能 且主要靠集成、调用外部应 用 Tableau 等间接提供数据可视化服务,缺少原生的数据分析、可视化应用。

向 BI 看齐,集成中层数据仓库+面向用户的业务前端应用形成“一站式”平台。 除集成第三方BI应用外,Snowflake未来可创建基于自身数据仓库的BI产品, 植入自身基因的 BI 应用与数据仓库无缝衔接和高效协同有望带来更优质的用 户体验。 Snowflake 已在 BI 领域的初步开拓。Snowsight 是 Snowflake 自身团队研发 的 BI 应用,预计于 2021 年上半年发布,可开发数据可视化和仪表板以执行数 据驱动决策。

6、增长看点三:数据交易供增量,强化平台变现能力

数据分享需求创造“数据交易”增量市场。Snowflake 构建起数据分享平台 Marketplace,允许客户购买并使用所需要的数据,截至目前,平台已经汇聚 448 家数据供应商,覆盖商业、环境、财经、生命科学、媒体、体育等众多行 业。我们认为,Snowflake 作为一个第三方平台,可促成跨多云平台的数据整 合,并促成提供者和需求者间的交易,强化自身数仓平台变现能力。

Snowflake 以中立第三方身份,凭借多云支持与数仓一站式平台,在数据交易中具有较强竞争优势。Redshift、BigQuery 和 Synapse 仅支持存储在自身 云上的数据的分享,而 Snowflake 横跨三大公有云,为用户分享跨云的数据带 来极大便利。此外,Snowflake 非仅促成交易的中介,数据需求者获取数据后 可直接在 Snowflake 平台上进行分析处理,交换+分析的一站式服务下 Snowflake 囊括该场景全部链条。即可向交易双方收取一定费用,数据的存储 与分析亦会在交易发生后产生收入。

Snowflake Marketplace 的数据定价由数据提供商决定,主要包括四种收费 方式:1)固定月费:每月支付固定价格(不同数据产品价格不同),至少使 用一次付费数据的查询,如不使用,则不收取月费。2)按次查询费用:每次 查询支付固定价格,如果定价计划包括月费,则除收取固定月费外,还会按查 询量收费。3)每月最高总费用:数据提供商可定义每月最高收费,达到最大 值后,该数据的后续查询将免费。4)免费查询次数:第一次查询之后,按查 询价格收费之前,一个月内允许的免费查询次数。每个月的第一次查询会产生 固定月费、每次查询费用或者两者都有,具体取决于供应商的定价计划。

7、增长看点四:与微软和英伟达合作,共同构建 AI 大模型解决方案

Snowflakes 与微软合作,将公司的数据云专业知识与人工智能龙头企业的云 技术、人工智能功能和算力优势相结合,帮助企业更加安全、更加便捷地构建 专属 AI 大模型。目前,微软的云技术、人工智能功能在业内均处于领先地位; Snowflake 与微软的合作旨在构建人工智能、低代码及 no-code 应用开发和数 据治理方面的尖端解决方案。而英伟达作为 AI“算力之王”,Snowflake 将整 合其人工智能软件和芯片领域优势,为企业根据 Snowflakes 平台数据构建 AI 模型提供动力。

具体而言,微软将把生成式 AI 引入 Snowflake 的数据云平台,并将该公司与 OpenAI 联系起来。英伟达则提供了底层工具包 NeMO 和基础设施。其中 NeMO 提供了一个基础的大型语言模型,Snowflake 客户可以使用自己的数据 进行模型自定义。而英伟达提供的基础设施包括客户培训其生成人工智能模型 所需的图形处理单元等。三家公司共同构建的 AI 模型解决方案将使 Snowflake 客户将能够利用他们账户中的数据量身定制大语言模型,从而用于打造高级生 成式 AI 服务,比如聊天机器人、搜索和总结等;还可以在不移动数据的情况 下定制 LLM,从而使专有信息在 Snowflake 平台内保持完全安全并受到管理。

 


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告