2023年星环科技研究报告:布局AI底座向量数据库,汲取行业红利

1. 投资结论

星环科技是一家大数据技术公司,致力于打造“云计算+大数据+数据 库+人工智能”的基础平台产品。公司长期专注于大数据基础软件平台、 人工智能平台和企业级数据云平台的自主研发和服务,致力于帮助企 业建立更加弹性灵活和智能化的数据底层方案,其中分布式分析型数 据库、实时流处理引擎、基于容器的云计算技术、大规模图数据库技 术均是公司的明星技术和产品。此外星环还积极助力企业用户紧跟大 模型时代的步伐,凭借在向量数据库领域的技术积累迅速推出成熟产 品,同时为行业大模型应用构建提供一站式工具类,并在擅长的金融 领域研发领域基础大模型成功获得卡位优势,未来有望以行业大模型 反哺向量数据库业务发展,汲取向量数据库行业飞速增长的红利,向 量数据库业务有望作为公司的第二成长曲线推动业绩超预期增长。

2. 星环科技:云计算+大数据+数据库+人工智能全 面布局

2.1. 十年深耕大数据领域,助力企业数字化转型

星环科技是一家企业级大数据基础软件开发商,自 2013 年公司成立直 至 2022 年公司上市,星环科技致力于围绕数据的集成、存储、治理、 建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务,已 形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分 析工具的软件产品矩阵,支撑客户及合作伙伴开发数据应用系统和业 务应用系统,助力客户实现数字化转型。

大数据基础软件业务

基础软件产品:共分为三类,分别为大数据与云基础平台软件 (TDH和 TDC)、分布式关系型数据库(ArgoDB和 KunDB)、数据 开发与智能分析工具(TDS 和 Sophon)。公司基础软件产品主要以 软件产品授权的方式交付,也可以软硬一体产品形式交付,并根据 项目需求配套提供相关的技术服务。技术服务:由于大数据基础软件专业性较强且对于整个信息系统的 重要性较高,需要提供技术服务支持。

应用与解决方案

主要针对大数据应用场景,提供大数据存储、处理以及分析等相关场 景下的咨询及定制开发等服务的解决方案;主要分为数据应用解决方 案和业务应用解决方案。

自 2013 年公司成立以来,星环科技以大数据基础平台软件为切入点, 并逐步发布相关新的软件产品来完善公司的大数据产品矩阵,不断丰 富的产品系列为客户提供数据全生命周期的高效管理工具。

基础软件业务贡献营收的半壁江山,但营收占比持续下降。2019-2022 年公司的收入一半以上来自于大数据基础软件业务,但收入占比呈现 小幅下降的趋势,其中主要是大数据与云基础平台软件业务规模增速 放缓导致(2022 年出现收入下降),然而分布式关系型数据库软件业务 却维持着高增速的表现,这与公司在分布式数据库技术端的持续积累 和产品端的不断升级息息相关。此外 2022 年技术服务的收入占比有明 显增加。

公司核心的软件授权业务毛利率维持高水平,技术服务毛利率不断提 高。技术服务占比上升的同时毛利率也持续升高,具体来看 2022 年公 司技术服务业务的毛利率为 49.01%,相比上年同期的 36.65%有显著提 升,主要得益于技术支持与服务人员项目实施的工作饱和度和各项目 之间协调调度能力提升的同时,公司将技术服务按照不同的产品模块 和数据生命周期管理角度进行细化分类,形成一系列技术运营服务标 准与工作规范,以提升相关人员的专业性及工作效率。

公司董事长孙元浩为实控人,合计控制 22.48%表决权。截至 2023 年 6 月 30 日,公司董事长孙元浩直接持有公司 9.24%的股份,并通过与发 行人股东范磊、吕程、佘晖及赞星投资中心签署的《一致行动协议》 控制公司 13.24%的股份所代表的表决权。因此,孙元浩本人及通过 《一致行动协议》控制公司 22.48%的股份所代表的表决权,为公司第 一大股东。

2.2. 股权激励众志成城,考核指标彰显信心

为了吸引和留住优秀人才和核心骨干,充分调动和发挥工作积极性、 创造性,有效提升团队凝聚力和企业核心竞争力,将股东利益、公司 利益和个人利益结合在一起,使各方共同为公司经营目标的实现和战 略发展贡献力量,实现长远发展,2023 年 3 月 13 日星环科技公告 2023 年限制性股票激励计划(草案),拟向激励对象授予不超过 125 万股限 制性股票,其中首次授予限制性股票 114.6191 万股,授予价格为 45.06 元/股。 此次股票激励健全了公司的长效激励约束机制,激励对象总人数为 200 人,约占公司截至 2022 年 12 月 31 日员工总数 1088 人的 18%,激励对 象覆盖面广,不仅有利于稳定核心技术和管理团队,还有望激励员工 为公司经营目标的实现和战略发展贡献力量,实现长远发展。 此次股权激励制定的业绩考核目标值为以 2021 年营收为基准,2023- 2026 年公司营收增长率不低于 60%、125%、200%、260%,分别对应 5.29、7.44、9.93、11.91 亿元,较高的业绩考核目标彰显了公司对未来 业务发展的信心。

2.3. 定增募资补充“军备竞赛”火力

2023 年 6 月 7 日,公司披露《2023 年度向特定对象发行 A 股股票预 案》,拟募集不超过 15.2 亿元,用于数据分析、量化投研平台等项目建 设。大数据和人工智能正处于历史发展机遇期,政策鼓励进一步加大投入,公司有望凭借定增资金助力,不断巩固核心技术壁垒,发展前 景广阔。

如果定增顺利落地,公司有望把握大数据和人工智能技术的未来趋势, 巩固公司核心技术壁垒。公司希望通过定增项目实现升级现有产品功 能、开展新产品的研发,以增强公司的产品竞争力,同时培育挖掘新 的营业收入增长点增强公司的盈利能力,并保障公司经营活动的稳定 性,为公司经营活动提供基础算力支持。面向新一轮数字化、智能化 发展浪潮,公司作为国内领先的国产数据基础工具型软件厂商,下游 需求处于旺盛期,此次定增投建项目精准把握当前下游核心诉求,为 公司长期可持续发展打下坚实基础。

3. 向量数据库作为“AI底座”行业空间广阔

3.1. 大模型将向量数据库从小众推向火爆

向量数据库,就是用于存储、索引和搜索向量数据的仓库。在传统的 关系型数据库中,数据往往被存储为表格形式。随着 AI 时代的到来, 众多企业面临着海量的非结构化数据,例如图像、音频和文本等。这 些数据无法简单地用表格形式存储,因此需要通过机器学习算法从中 提取出“特征”,向量数据库的兴起便是为了解决对这些向量进行存储 与计算的问题。 向量数据库早在 2018 年便开始应用,应用场景局限于推荐系统和以图 搜图,比较小众,主要面向 AI 企业用户,曾被质疑天花板不高: 应用场景局限:大模型出现前,向量数据库的使用场景常限于推 荐系统、视觉检索等,被投资者质疑市场天花板不高,空间有限。 客户需求弱:用户可以基于诸如Faiss、pgvector 等开源的向量检索 插件自己研发满足需求。

向量数据库的优势:对比传统数据库

可存储非结构化数据 :向量数据库专门为非结构数据检索而设计,通过向量嵌入函数 (vector embeding )来精准描写文本、语音、图像、视频等非结构化 数据的特征,从而提供查询、删除、修改、元数据过滤等操作。 而像 SQL、Mysql这样传统的数据库根本无法完成这些操作。近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS) 不同于传统数据库一一对应的精确检索,向量数据库能够对向量 数据进行更为快速的相似性搜索, 商业化潜力巨大,可应用于搜 索广告推荐、图像音视频检索、文本挖掘、语言识别处理等广泛 领域。 具备高性能的快速检索与分析能力 向量化执行引擎可以减少节点间的调度,提高 CPU的利用率。 大模型带火了向量数据库。ChatGPT 的横空出世,带动了新一波生成式 AI 的投资浪潮,也带火了向量数据库。2023 年 3 月, 英伟达 CEO 黄仁 勋首次提及向量数据库,强调了向量数据库对于构建专有大模型的重 要性,催生了 4 月份的一波投资浪潮。

3.2. 向量数据库赋予大模型长期记忆力

向量数据库被誉为“AI 海马体”,因为它可以赋予大模型长期记忆力。 如果把大语言模型比作大脑,那它天然就缺失了形成记忆能力的海马 体。之所以被称为 AI 的海马体,是因为通过外接向量数据库将对话上 下文或者额外知识进行向量化存储和检索,能够让 chatGPT 这类大语言 模型记忆与理解人机交互过程中的交流内容。大语言模型所面临的种 种缺陷与业界难题,在“AI 海马体”向量数据库的加持下都能够迎刃 而解:

时间局限性:实时性难题和缺乏私域数据

目前的大模型都是预训练模型,对于训练截止日之后发生的事情 一无所知。第一是没有实时的数据,第二是缺乏私域数据或者企 业数据,向量数据库可以支持学习互联网等最新信息,还可以输 入公司信息产品手册等私域信息,以供模型进行推理。

空间局限性:输入限制导致上下文信息丢失

受到算力和工程化程度的限制,一旦输入文本超过了最大的 Token 数,大模型就开始忘记上下文。在这种限制下,例如无法将一家 上市公司的全部年报数据输入进大模型,导致不能进行全面的分 析。向量数据库可以记录客户端和大模型之间的对话聊天信息, 为大模型提供理论上没有上限的长期记忆。

应用痛点:“幻觉”和低准确率问题

大模型存在诸如生成不准确或不相关的信息,缺乏事实一致性或 常识,重复或自相矛盾,有偏见或冒犯性等问题。目前 “幻觉” 问题从训练推理环节的技术层面上来说没有有效解决方案,只能 通过 finetune 以及重新训练的方向进行优化,但是通过外接向量数 据库可以补充知识库进行校正,让其能够给出更准确的结果,一 定程度上解决“幻觉”问题。

多模态数据处理难题

大模型不仅限于处理文本数据,还可以处理图像、语音等多模态 数据。向量数据库作为一种能够存储和处理多种数据类型的系统, 能够有效地支持多模态数据的存储、索引和查询。

向量数据库商业价值广阔,具体分为三个方面:

降低训练和推理成本: 相较于笨重且高成本的预训练和推理,大模型可以更高效地存储 和读取知识库,反过来起到降低训练和推理成本的作用。根据腾讯云数据显示,相比传统方式,将向量数据库用于大模型预训练 数据的分类、去重和清洗,可以实现 10 倍效率的提升;而如果将 向量数据库作为外部知识库用于模型推理,则可以将成本降低 2-4 个数量级。

激发更多应用场景: 赋予使用者定制化 AIGC 的能力,这一点是预训练和推理无法触及 的,通过向量数据库,用户可以向 AIGC以交流的形式训练“AI 助 手”,对于企业用户可以用企业专属 AI 进行员工培训、数据运维甚 至企业财务管理和战略制定等复杂任务。

解决了业界担心的大模型隐私泄露的问题: 外接的数据库可以不用进入网络甚至不用上传到云端,大模型是 在安全机制下访问向量数据库中的数据。

3.3. “传统向量数据库”难以取代专业向量数据库

专业向量数据库并非传统数据库厂商所能取代的。由于向量数据库的 核心技术核心向量索引技术成熟,进入壁垒低,因此市场认为向量数 据库核心技术缺少壁垒,传统数据库实现向量搜索功能简单,将替代 向量数据库满足大部分市场需求,专业向量数据库将被“传统向量数 据库”取代。然而经过深度的产业研究我们发现,只有高性能的专业 向量数据库才能满足不断发展的 AI 应用场景,其与生俱来的不可替代 性是写在“基因”里的,而 AI 的需求将大幅提升其市场空间。

市场认为:专业向量数据库市场需求弱

观点一:核心技术壁垒低,传统数据库厂商将抢夺市场; 向量检索技术成熟且开源,进入壁垒低。传统数据库大都可以直 接安装开源索引插件(Faiss)实现向量搜索,如 ElasticSearch、 MongoDB等已添加向量检索功能,AWS RDS PostgreSQL和阿里云 PostgreSQL 14/15 也发布支持了 pgvector 插件。而对于当前缺乏向 量搜索功能的数据库,随着技术的发展,增加向量搜索功能只是 时间问题。 传统数据库封装向量检索功能即可满足大部分客户对于向量数据 存储与检索的需求,市场对专业向量数据库没有需求。同时可以 解决专业向量数据库在实际应用场景中与其他专业数据库的一致 性问题。

观点二:下游需求差异大,向量数据库抢占客户不及传统数据库; 向量数据库客户需求差异大,产品推广难度大,而传统数据库将 凭借客户资源积累抢占市场。部分客户业务对向量检索服务的要 求是低时延高并发,例如广告推荐业务的客户,要求单次 ANN 查 询要在 50ms 内完成,这对整个系统的优化提出较高要求。而另外 一部分客户对成本比较敏感,向量数据库的使用频率不高且接受 离线系统手工调用。因此几乎不可能出现一款向量数据库满足如 此大差异的不同查询类型的需求。

观点三:向量数据库并非大模型刚需,市场空间有限; 专业向量数据库的高性能优势暂无用武之地:向量检索的延迟时 长为 chatGPT 的 0.5%,高性能的收益极低。传统数据库增添向量 检索功能即可满足大模型领域的需求。语义分析领域不如传统搜索厂商:向量数据库擅长稠密向量检索, 而文本的语义分析通常转化为计算存储成本更低的稀疏向量,而 稀疏向量检索并非专业向量数据库所擅长。

我们认为:专业向量数据库市场需求巨大且刚性。

观点一:传统数据库不构成威胁。专业向量数据库性能-成本优势明显, 随着应用场景的复杂化传统数据库将无法满足需求; 首先,向量数据库在易用性方面表现得更为优秀。向量数据库往 往提供了更易于迭代和拓展的 Python、JavaScript 和 Restful API 接 口,从而可以更方便地增加新的功能和语法。这使得向量数据库 能够适应AI 和大数据领域日新月异的变化,更符合 AI 应用开发者 的需求。

其次,向量数据库在处理高维向量数据时通常能够提供更高的性 能。这种性能优势不只是源于对向量索引的优化,更多地在于向 量数据库对算力资源的有效利用和对数据分布的深入理解。优秀 的向量数据库会基于 CPU、SIMD、GPU 等算力进行优化,根据 Milvus 的测试结果显示,GPU 索引的性能可能优于 CPU 的十倍以 上。相比之下,传统数据库虽然增加了对向量数据的支持,但其 能力往往受限于已有的系统架构,因此很难充分利用算力资源。 同时,传统数据库也无法像专门针对向量数据设计的数据库那样, 更有效地处理向量数据的分片、增量插入和删除等问题。除此之 外,传统数据库进入向量数据领域或多或少地存在更新困难、性 能慢、标量向量查询无法打通、索引任务和查询相互影响问题。

AI 时代下随着海量非结构化数据的生成、跨模态分析应用的不断 发展,只有专业的向量数据库才能满足客户日益提升的高性能需 求。数据库具有高度分化的特点,回顾现有的各类型数据库龙头 品牌,可以看到即便所有的数据库都可以存 KV(键值),但是 MySQL 不能替代 Tair 和 Redis;即使所有数据库都能够存 Jason, MongoDB 仍然没有被替代,说明不同的数据类型和场景类型需要 对应的专业数据库,而随着 AI 的发展,对专业向量数据库的需求 只会越来越大。

观点二:下游定制化证明需求刚性; 客户差异大且细分场景多,侧面反映出对专业向量数据库的刚需, 此外我们认为产品差异化需求将被市场消纳为两类主要需求。向 量数据库绝大多数情况下服务于 AI 应用场景,这些场景里传统数 据库的存量功能实际应用价值低,采购向量数据库性价比高。只 有专业向量数据库才能更好的提供定制化服务,定制化需求体现下游刚需,客户粘性强。 图 9:向量数据库下游的差异化需求将被市场消纳为两大

观点三:大模型领域对专业向量数据库有着明显刚需。专业向量数据 库在图像、音视频数据应用上的优势不可逾越,已成为大模型的刚需; 高性能收益低只是暂时:随着非结构化数据应用的发展,大模型 对音视频、图像的向量检索需求飞速增长,而专业向量数据库巨 大的性能优势将成为大模型的刚需。 传统搜索厂商性能落后:向量数据与全文数据在存储、计算上有 很大差别,传统搜索数据库比如 ElasticSearch 很难同时高效支持这 两种场景,性能远落后于专业的向量数据库,并且不能支持多种 向量索引,所支持的 HNSW 在大数据量资源开销极大。 密集向量比稀疏向量更好地压缩了文本的语义:针对文本搜索场 景,全文搜索更适合做关键字匹配,而向量搜索能找出字面上不 同但语义上相近的内容。使用向量加全文的联合召回,能够做到 的精度比单独使用向量或者全文更高,星环科技向量数据库 Hippo1.1 版本里的 hybrid search 就有这样的功能,在内部项目应用 下来效果非常好。

随着 LLM 逐渐进入生产环境,AI对基础设施的要求越来越高,向量数 据库是人工智能基础设施的一个重要补充。向量数据库与传统数据库 并不会互相取代,而是会在不同的场景下发挥各自的优势。向量数据 库的出现,也会促进传统数据库对向量数据类型的支持。未来随着新 的应用场景的出现,向量数据库需要适应不同的应用场景,提供更加 灵活和多样化的解决方案,从而满足不同用户的需求,应用场景的不 断丰富与 AI 需求的增长将带动向量数据库的市场空间不断上升。

3.4. 向量数据库市场空间潜力巨大

应用端 AIGC 不断筑高向量数据库市场空间天花板。AI 技术的发展将 推动向量数据应用与存储需求加速增长:一方面随着 AI 应用场景不断 丰富,向量数据库的下游客户数量随着 AI 发展而飞速增长;另一方面 AIGC 正推动着非结构化数据应用飞速增长,AIGC 带来了跨模态数据 分析的需求浪潮,比如结合图像、文本、音频等不同类型的数据进行 分析和预测,只有向量数据库才能实时快速地处理这些海量的向量数 据。

数据端 AIGC推动非结构化数据指数级增长,将不断加强客户对专业向 量数据库的刚需属性。第一,AIGC 将生成海量的非结构化数据,如数 字人、AI 绘画、AI 剪辑、AI 办公、AI 作曲等应用场景;第二,大模型 互相训练或者自我训练产生大量数据,诸如 AutoGPT 等大模型会把自 己创造的知识保存下来,不断迭代演化,导致非结构化数据以指数级 增长,如此大体量数据的存储只能求助于向量数据库。

向量数据库市场目前尚未完全商业化落地。市场上主流的两种商业模 式为 KA 定制和云数据库模式(按照存储和计算资源收费)。以 Pinecone 为例,存储量每个月每 GB 定价在 0.025 美元,而计算使用量则是每小 时 0.1-1 美元不等,根据算力等级有所差异。根据 IDC 的预测,到 2025 年,全球非结构化数据的量将达到 167ZB。

向量数据库市场空间测算: 我们选用了以向量数据库在数据库行业的市场空间渗透率为出发点的 方法一,全球数据预测包括结构化和非结构化数据的预测数据来自于 IDC,2022 年全球数据库与国内数据库市场规模数据来自于中国信通院 《数据库发展研究报告(2023 年)》。

核心假设: 关键假设:假设到 2025 年存储单价下调 30%(比较基准为 2022 年存储 单价),到 2030 年存储单价下调 80%; 方法一新增假设: 全球与国内数据库市场规模与结构化数据规模强正相关。由于当 前行业内大部分数据库均是针对结构化数据的存储与索引而设计, 尽管向量数据库对非结构化数据的存储与索引看上去是一条增量 赛道,但随着企业对非结构化数据的存储利用愈发重视,企业对 结构化数据库的需求增速可能会下降,同时非结构化数据虽然增 速迅猛但是价值含量低于结构化数据,因此谨慎假设整体数据库 市场规模增速与结构化数据规模增速相同。 假设市场规模与存储单价强正相关(单价变低,市场规模变低); 假设向量数据库在整体数据库行业的渗透率在 2023-2026 年由 3% 突破至 10%,到 2030 年突破至 20% 方法二新增假设: 非结构化数据在向量数据库存储的比例对应 2023-2026 年由 0.01% 增长到 0.06%。

测算结果: 方法一:预计到2030年,全球向量数据库的市场空间达到383亿美元, 而国内向量数据库的市场空间达到 186 亿元; 方法二:预计到2030年,全球向量数据库的市场空间达到436亿美元, 而国内向量数据库的市场空间达到 211 亿元。 最终基于审慎性原则,我们选用以向量数据库在数据库行业的市场空 间渗透率为出发点的方法一作为公司向量数据库业务收入的估值依据。 预计2023-2025年国内向量数据库的市场空间分别为16、34、55亿元。

4. 星环科技:前瞻性布局竞争优势明显,静候行业 发展红利

星环科技属于国内第一批进入该领域的厂商,先发优势明显。公司早 在 2018 年便为公司内部 AI 团队研发向量数据库使用,凭借十年深耕于 大数据市场所积累的行业经验,公司富有前瞻性地预见到向量数据库 未来在 AI 时代下的应用潜力,不断地积累向量数据库的相关技术与专 利,最终产品技术迭代五年后于 2023年 5月份正式发布 Hippo,星环的 分布式向量数据库 Hippo 作为一款企业级云原生分布式向量数据库,基 于分布式特性,可以对文档、图片、音视频等多源、海量数据转化后 的多维向量进行统一存储和管理。通过多进程架构与 GPU 加速技术, 充分发挥并行检索能力,实现毫秒级高性能数据检索,结合相似度检 索等技术,帮助用户快速挖掘数据价值。

4.1. 做好向量数据库要具备“数据库基因+AI 基因”

向量数据库涉及多个领域的知识,相关技术与知识需要长期积累。涉 及领域包括交叉的 AI 知识和数据库等知识,只是简单封装开源检索库 (或者开源插件)所实现的向量搜索功能在安全性、稳定性和可用性 等方面存在缺陷。在大模型时代下,高性能是向量数据库脱颖而出的 关键要素,对于想要做出一个高效的向量数据库的厂商来说,至少需 要具备“数据库基因”+“AI 基因”。

数据库基因:需要有传统的数据库技术能力,由于要管理海量级 的数据,向量数据库必须是构建在大数据和分布式数据库技术基 础上,必须满足 share-nothing架构、高可用性和高扩展性,因此需 要厂商具备传统的数据库技术能力(包括如何做分布式,如何扩 缩容,如何做数据安全、备份以及维持高可用性等能力)。

AI 基因:只有真正懂 AI 的厂商才能全方面服务好下游客户,一是 要懂 AI 的使用场景、使用方式,二是要懂得 AI 的生态运作体系, 从大模型开发到应用环节;AI 基因对于向量数据库厂商来说至关 重要。

星环科技具备多年的数据库技术和 AI 技术积累,以及向量数据库技术 方面的实践,在产品可用性和稳定性等方面表现优秀。从产品层面来 看,被业界看好的开源软件并未占据优势,数据库作为新兴中间件已 经初步呈现高度定制化需求,易用性和定制化服务两大要素削弱了开 源插件的实际应用能力。从公司层面来看,数据库国产化替代趋势下, 高度自主研发的数据库厂商具有不可逾越的政策性优势,国外厂商难 以进入国内市场,且国外厂商的产品中文检索准确度低,相比星环科 技处于明显劣势。

4.2. 专业向量数据库厂商前赴后继竞争激烈

大模型厂商不构成竞争,以专业厂商为主。大模型的训练和推理本身 只涉及 embedding 模型,不需要向量数据库,因此大模型厂商不形成直 接竞争。 专业向量数据库厂商数量众多。目前全球已有的向量数据库产品主要 包括 Pinecone、Milvus、Weaviate、Vespa、TencentCloud、VectorDB 等。 其中,超过一半的向量数据库具有云化部署的能力。

星环分布式向量数据库 Hippo 具备高可用、高性能、易拓展等特点。 星环科技投入了大量时间在向量数据库产品的安全性、易用性、运维 管理能力上,向量数据库 Hippo满足“云原生+分布式部署+企业级安全+ 高性能检索+多样化接口”等优秀指标,位于业内领先水平。Hippo 不 仅支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数 据摄取、向量标量字段过滤混合查询等功能,很好地满足了企业针对 海量向量数据的高实时性检索等场景;此外,Hippo 采用全面容器化部 署,支持服务的弹性扩缩容,同时具备多租户和强大的资源管控能力。 星环下半年推出的 Hippo 社区版,具备免费获取、快速部署和简单易用 等特性,进一步降低了用户使用向量数据库的门槛和成本,用户可以 低成本、快速地基于已有向量数据库进行大模型领域的探索,实现业 务的创新。

4.3. 星环科技兼具“技术+资源+商业模式”三大竞争优势

星环科技兼具“技术+资源+商业模式”三大竞争优势。公司是国内最 早进入向量数据库领域的公司之一,拥有丰富的行业经验和客户资源, 并且是 A股唯一一家投入到向量数据库领域的上市公司。

一、技术优势

技术先发:星环科技的向量数据库因内部 AI 团队需求而诞生,于 2018 年开始自研自用,产品技术迭代五年后于 2023 年 5 月份正式 发布 Hippo,属于国内第一批进入该领域的厂商,具备先发优势; 技术储备:星环科技在向量数据库领域拥有多项核心技术和专利, 其产品性能和功能在国内处于领先水平,和全球热门向量数据库 产品 Pinecone 相比,星环的检索性能更为优越,在中文检索准确 度上更高。

二、资源优势

客户积累:截止 2023 年半年报共计 1400 +用户使用星环平台,其 中公司深耕金融领域长达 8年,服务了大量金融行业客户,客户资 源深厚,在 AI 业务线上目前金融客户一直与公司持续着深度交流, 积极探讨大模型的具体场景; 资本背书:腾讯云与星环科技自 2017 年成为战略合作伙伴,更是 公司的有力背书。

三、商业模式优势

战略布局大模型开发一站式工具链,深度绑定大模型客户。 Sophon LLMOps 服务于大模型开发者,帮助企业快捷地构建自己 的行业大模型,深度绑定大模型客户。支持领城大模型的构建、 落地应用和持续选代;拥有从提示工程到机器学习、模型训练的 一站式工具链;支持模型编排调度、上线、运维管理及持续开发 目前大模型开发工具链在金融领域已有客户进行了采购。

大模型和向量数据库进行技术反哺,共同提升产品优势。相较于 通用大模型,金融大模型更加擅长处理金融量化领域各类问题, 包括政策和研报分析、新闻解读、事件总结和演绎推理等方面, 具备强大的理解和生成能力。该模型能够全面复盘、传播和推演 股票、债券、基金、商品等多种市场事件,并生成另类的策略因 子集合,构建立体的归因解释体系。 根据公司在投资者互动平台上的回答内容表示,星环金融大模型 目前交流的客户较多,包括监管机构、银行、券商、基金等客户 都在关注大模型的潜在应用,与公司一同积极探讨大模型的具体 场景。向量数据库通过与大模型和的结合互相反哺,不断提升各 自产品以及整体方案上的优势。

星环金融大模型“无涯”功能丰富。目前可以实现:(1)新闻实 时分析,包括摘要、分类、潜在影响分析;(2)年报、财报、公 告等方面的问答;(3)产业相关问答,支持联网搜索功能。大模 型和量化投研工具结合,对板块个股生成情绪因子回测效果较好, 未来可提供给投资端开发量化策略。

将向量数据库、图数据库与大语言模型结合,为微调提供数据, 可以更低成本、更高效地构建特定领域的大模型应用。此外,还 可以构建业务域知识图谱和业务系统的应用服务,进一步提高人 机交互的效率,提供更灵活的组合业务服务,激发出更多更深入 的业务场景 AI 应用。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告