商汤科技如何构建核心优势？ - 问答集锦

最佳答案由匿名用户编辑于2025/05/12 13:17

大装置+大模型协同形成壁垒.

1.SenseCore 大装置：新一代 AI 基础设施

商汤前瞻布局 SenseCore 大装置，实现高效率、低成本和规模化 AI 基础设施。2021 年公司即提出“大装置”概念，为国内首个提出新一代 AI 基础设施思考并实践的厂商，旨在解决三大核心问题：1）工业级高性能 AI 模型生产面临成本高昂、长尾问题数据量低等挑战；2）特定行业率先涌现规模化 AI 基础设施需求；3）数据量及模型的指数型增长对算力提出高要求。2022 年公司 AI 基础设施的重要载体人工智能计算中心 AIDC 正式投入运营。 AI2.0 时期的基础设施需要精细化设计和重构，而非简单服务器或 GPU 堆砌。新一代 AI 基础设施需要以大模型能力输出为核心平台，集成算力资源、数据服务和云服务，需要能够最大限度提升大模型和生成式 AI 服务的表现。主要构成为算力、MaaS、相关工具和咨询服务。算力：1）高性能异构集群为底座，具备计算网络、文件存储和 AI 算力资源；2）软硬件系统协同，构建集群过程中融合大模型分布式训练对计算、网络、存储的需求特点；3）具备强线性扩展能力，将 GPU 等 AI 算力资源容器化和资环池化实现灵活调度、远程共享等。 MaaS：1）预构建基础大模型及 API 提供；2）一站式大模型开发工具及服务；3）AI 原生应用开发工具提供；4）预构建高质量数据集及 AI 数据管理服务。咨询服务：落地实践中厂商基于自身经验积累为用户提供围绕大模型开发实践的资讯类服务。

GenAI IaaS 高速增长，GenAI 推理未来将成为主阵地。根据 IDC（国际数据公司）， 2024H1 中国 GenAI IaaS 同比增长 204%，达到 52 亿元；GenAI 在互联网行业的音视频、游戏、教育等领域加速落地，GenAI IaaS 推理算力支出快速增长，客户在 GenAI IaaS 的推理支出占比从 2023 年 5%上升至 2024H1 的 23%。推理端重要性大幅上升，算力服务行业迎来重要拐点。2024H2，OpenAI 发布 o1 模型标志着大模型迭代重心从 Pre-training 转向 Post-training 和 Test-time Compute。随着 DeepSeek 实现国产开源大模型低成本、高性能推理，应用落地将快速拉动推理需求。根据 IDC（国际数据公司），推理算力最终将占算力支出的 6-7 成，我们认为，算力服务行业即将迎来高速增长的拐点。

商汤大装置 SenseCore 分为 AIDC、MaaS、AI 应用三层，以 AI 大模型开发、生成、应用为核心，打造一站式自主研发 AI 云、AI 平台、AI 服务解决方案，基于全国范围的算力中心和节点，面向大模型、生成式 AI 场景构建产品。 DeepSeek 验证 AI Infra 重要性，商汤大装置逻辑一致。相较于仅做模型，DeepSeek 的成功验证底层级别工程化优化加上算法创新能够展现成本端和模型性能端优势，商汤大装置的布局逻辑相同，在理解应用的基础上通过底层基础设施和模型算法的协同优化创新，能够将综合实力发挥至优。

2. 全国领先的自建 AIDC

截止 2024H1，公司运营总算力规模突破 2 万 PetaFLOPS，上线 GPU 达 5.4 万张，在自建 AIDC 厂商中处于领先地位。公司具备从千 GPU 集群到万 GPU 集群的设计、建设、和灵活调度运营的成熟能力，能够支持 2 万亿参数的 MoE 多模态模型的稳定高效训练和推理。从计算、存储、网络和管理平台几方面全面优化：1）打造高稳定性算力池：实现千卡并行训练线性加速比超 90%，30 天长时间训练不间断，分钟级异常检测和断点续训；2）优化存储系统：实现 IOPS 缓存系统高于 500 万，存储处理达千亿级别，应对视觉、多模态数据管理需求；3）高性能无损训练网络：单节点训练网达 1.6T 的带宽并向 3.2T 发展； 4）提供云管理平台：实现公有、专有、私有、混合等多云部署模式。 Capex 投入上转变为轻重结合模式。截至 24 年 7 月，商汤总算力规模 2 万 PetaFLOPS 中上海临港 AIDC 占 1 万 4 PetaFLOPS，预估其余采用轻资产运营模式经营，即由合作伙伴提供 GPU 等硬件设施，商汤提供集群构建能力和运营管理。轻资产运营模式能够带来 2 大优点：1）规避供应链风险：在硬件设施迭代迅速的环境下，重资产投入易有更新换代频繁的风险，轻资产模式能够规避；2）现金流优化：公司在 Capex 投入上同比环比下降，相对轻资产模式会带来一定的毛利率下降，但对于现金损耗会减少，提升抗风险能力。

竞争格局看云计算巨头领先，商汤在“新势力”中一枝独秀。根据算力服务商的发展路径和技术禀赋，我们将市场上的 AI 算力服务商分为三类： 1）互联网大厂：百度、阿里、腾讯、字节跳动； 2）三大运营商：中国移动、中国电信、中国联通； 3）中型云服务商：商汤科技、金山云、优刻得、青云、首都在线。前五大厂商中，云计算巨头占比最高，商汤为布局自建算力中心的 AI 原生企业领先者。

AI 算力服务发展初期，研发投入奠定长期优势。2023 年是生成式 AI 发展元年，相关算力服务出现不足 2 年，参考云计算时代云大厂的发展路径，现阶段仍处于研发投入和固定资产投资快速上升的发展初期，通过研发投入积累模型服务能力。商汤规模化研发投入带来领先的综合服务能力。商汤在中型云厂商中收入体量最大，在大规模的研发投入下，商汤形成了与互联网大厂的类似的 AI 发展路径，采用算力服务（SenseCore 商汤大装置）+基础大模型（日日新）双轮驱动，通过基础大模型的研发和应用层的发力，商汤在模型训练、应用开发落地等高附加值领域领先其它中型云厂商，获得“服务溢价”。

3. 大模型能力升级，商业化快速推进

大装置算力加持下日日新大模型迭代迅速，产品体系全面。基模型迭代迅速，2023 年 4 月公司首次推出商汤日日新 SenseNova 大模型体系，至 2024 年 7 月完成 5 大版本迭代。2024 年 4 月发布升级版日日新大模型 5.0 体系，完成云、端、边全栈布局，大模型综合能力全面对标 GPT-4 Turbo，聚焦数学、推理、编程和多模态能力上的提升，主流客观测评上达到或超越 GPT-4 Turbo。2024 年 7 月发布的日日新5.5 版本在多模态能力上提升，为国内首个对标 GPT-4o 的多模态实时交互大模型，实现语音、视频和语言模型的原生融合。

持续探索知识-推理-执行的三层大模型能力架构。模型架构上：采用了 GPT4 等万亿参数模型试用的 MoE 机制。数据上：超 10TB tokens 中英文预训练数据结合数千亿 tokens 逻辑型合成数据，解决大模型对客观知识和世界初级认知的基础上提升高阶知识推理能力。基础模型能力升级： 6000 亿参数基模型性能全面提升，日日新 5.5 综合性能较 5.0 平均提升 30%，大量使用合成高阶思维链数据提升推理思维能力，在数学推理、英文能力和指令跟随等能力明显增强，交互效果和多项核心指标实现对标 GPT-4o。

国内首个流式交互模型日日新 5o。通过整合跨模态信息，基于声音、文本、图像和视频等多种形式，在与大模型交互中实现类人交流，从场景理解分析、物体信息描述、书籍图文总结，甚至粗糙简笔画、面部情绪都能够精准实时处理交互。

云、端、边全栈大模型布局。商汤端侧大模型能够用于手机、车载等终端设备，端侧大语言模型推理速度在中端平台能够实现 18.3 字/秒的平均生成速度，旗舰平台能够实现 78.3 字/秒；扩散模型推理速度现场演示小于 1.5 秒，支持输出 1200 万像素及以上的高清图片。边缘产品则推出垂类领域的商汤企业级大模型一体机，支持企业级千亿模型加速和知识检索硬件加速。应用端产品簇丰富，B 端行业应用广阔。公司 AIGC 产品包含对话助手商量（普通版）和商量（拟人）、秒画文生图、vimi 视频生成、小浣熊代码助手、如影数字人、琼宇/格物 3D 生成、明眸数据标注平台等，基本覆盖市场上现有大模型主流应用产品体系。行业端应用于金融、医疗、地产、能源、传媒、工业制造、教育等，企业用户超 3000 家，24H1 报告期内日日新整体调用量实现 400%增长，应用案例如下： 1）金融：以中国银行、招商银行、宁波银行、上海银行、海通证券为代表的企业客户使用日日新大模型能力构建金融垂类场景应用，覆盖员工助手、合规风控、编程助手、数字人、营销等业务场景。 2）医疗：上海瑞金医院、上海新华医院、郑州大学第一附属医院等大型医院采用商汤 “大医”医疗大模型，实现智能导诊、预问诊、用药咨询、诊后随访、多模态数据治理等功能。 3） Colipot 助手：公司代码助手、办公助手产品小浣熊成为国内增长最快的 Copilot 产品之一，中国电信、金山办公等大型企业用户，以及数十万个人用户和开发者已成为小浣熊用户。 4）拟人交互：支持微博、阅文筑梦岛、爱奇艺、想法流等互联网应用，用户粘性和活跃用户数量持续保持行业前列，日调用量在半年内上涨近 22 倍。 5）智能终端：端侧小模型在推理速度及模型能力保持领先，在手机、汽车、个人电脑、智能音箱等多种 IoT 设备带来全新用户交互体验，服务小米、Oppo 等客户。

原生融合多模态技术突破为公司重点研究领域。目前行业内视觉语言基础模型尚未跟上大语言模型的发展步伐，许多需要综合处理视觉和语言信息的场景无法充分发挥潜力，公司认为大语言模型结合多模态技术能够更准确地模拟并理解人类的复杂行为和思维方式，推动 AI 在自动驾驶、智能助手、医疗诊断等各行的应用。多模态模型并非简单的把不同模态内容转变为语言 token 输入，而是从数据层、模型架构层全流程进行融合，从感知、思考到输出，该技术是公司的重点突破方向。 2024 年全球 CVPR 的 2719 篇接受论文中商汤入选 50 篇，研究成果重点聚焦视觉语言基础模型，涉及自动驾驶、机器人等前沿方向。例如： 1）视觉语言模型能力：商汤、上海 AI 实验室联合设计的大规模视觉语言模型 InternVL1，首次将大规模视觉编码器扩展到 60 亿参数，与 LLM 对齐，在准确性、速度和稳定性之间取得平衡。 2）智能体的社会化交互：公司与联合实验室提出数字生命计划，通过 AI 技术和动作合成技术创造能够在数字环境中模拟交互的自主 3D 虚拟角色。其中包括模拟人类思想及判断的数字大脑 SocioMind 和控制角色身体动作的 3D 系统 MoMat-MoGen，二者结合能够创造出复杂社交互动行为的 3D 虚拟角色。数字大脑的探索使智能体变得更具有灵性，结合 3D 场景的理解和交互，向让机器人和具身智能应用靠近。

综上，我们认为公司较为前瞻的布局了 AI2.0 时期的硬件基础设施和应用部分，通过底层和上层的协同优化构筑壁垒。基础设施端：自建 AIDC 和规模化研发服务的协同优化能够保证公司从传统基础设施厂商和 AI 原生公司中脱颖而出；应用端：拥有全栈体系 AI 应用，覆盖行业广阔。技术端：拥有全球领先的技术实力，大模型聚焦原生融合多模态发展，预估后续发布能够继续保持世界领先性。