2025年传媒行业AI产业研究系列之字节跳动AI应用篇：字节AI应用流量领先，下半年看好垂类应用变现提速

东方证券2025/08/01
举报

一、ToC AI 应用：豆包领跑，部分垂类赛道也取得领先卡位

字节 AI布局在下游 C端的体现我们认为分为两类，一是大模型能力为现有 APP（抖音、飞书等）赋能，由于可获得的信息有限，在此篇报告中不重点展开；二是 Native AI 应用，也是下文的分析重点。字节的 AI 应用里，豆包是获得最多战略资源支持的产品，体现在豆包可提供的大部分功能，是遴选和整合出字节内部最强技术能力后的结果，技术能力和产品功能快速迭代共同作用于豆包在 Chatbot 赛道上的领先表现。此外，字节在情感陪伴、教育、办公、创作等垂类赛道上也均有 AI 应用布局，且部分产品已做到赛道领先，如猫箱（AI 情感陪伴）、即梦（多模态创作）。

1.1 应用布局：海外国内并行，多垂类已卡位领先

字节 AI 应用策略全面，Chatbot、图像视频、情感陪伴等垂类均有布局，海外国内同步上线，多端协同。字节 AI 应用布局呈现以下特点：1）垂类赛道一揽子布局。字节 AI 应用 Flow 部门自 23 年 12 月成立，在 Chatbot、教育、视频图像生成和编辑、情感陪伴等垂类赛道均有布局，且更多是在已被验证的场景里进行布局，如 AI 情感陪伴领域的类 Character.ai 产品猫箱（海外为 Anydoor）、AI 相机领域的类妙鸭产品星绘（海外为 PicPic）、AI 教育产品豆包爱学（海外为 Gauth）等。2）海外国内均有头部产品跑出。字节每一款AI应用都分别有海内外版本，部分国内产品复制到海外，如豆包对应海外 Cici、猫箱对应海外 Anydoor。3）多端布局扩大用户和场景覆盖。字节的 AI 产品注重 APP 和 Web 端同时布局，既满足用户出于便捷的移动端需求，又满足注重效率的办公学习场景 Web 端需求。我们看好字节在 AI 应用生态上的站位，凭借抖音+TikTok 的流量优势，字节 AI 应用在海外和国内均能快速起量扩大用户覆盖。其次得益于字节在互联网时代作为 APP 工厂积累的产品运营经验，产品端打磨能提供更佳的 AI 体验，字节部分垂类产品已位于赛道 Top，如 Chatbot 豆包、 AI 情感陪伴猫箱等。

行业层面部分 AI 应用产品已跑出商业化规模，看好下半年 AI 应用加速变现，尤其重视国内厂商中有海外 AI 应用布局的公司。从全球部分 AI 产品 ARR 收入看，目前已有一定商业化规模（ARR>5000 万美元）的产品主要分成三类，（1）以通用模型服务订阅收费的产品，如 OpenAI 和 Anthropic，ARR 分别为 100 亿和 40 亿美金。（2）结合垂类场景的 AI Native 产品，以生产力提效为主，如 AI 编程 Cursor、AI 图像生成 Midjourney、AI 视频生成可灵等，ARR 收入在几亿美金不等。（3）AI 赋能原有业务场景，如 AI 图像编辑美图，AI 能力提升原有产品效果和用户体验，拉动付费渗透。我们看好下半年垂类 AI 产品用户增长和商业化闭环提速，考虑到目前海外 AI 付费习惯和意愿更好，我们认为应重视国内有海外 AI 应用布局的公司，商业化起量或超预期。

1.2 Chatbot 豆包：循序渐进，打造能力领先的 AI 助手

1.2.1 技术和用户思维赋予豆包强产品力，运营数据领跑

字节的 AI 应用里，豆包是获得最多战略资源支持的产品，体现在豆包可提供的大部分功能，是遴选和整合出字节内部最强技术能力后的结果，技术能力和产品功能快速迭代共同作用于豆包在 Chatbot 赛道上的领先表现：1）字节全模态的基础模型能力赋予豆包不俗的产品力；2）豆包本身的产品策略上，站在用户角度思考，积极迭代各场景下的功能需求，致力于更好嵌入到用户的生活和工作流中。 1）基于字节的全模态技术能力，豆包在各场景功能下皆有卡位，展现大而全的产品力。字节大语言模型和多模态技术的迭代，为豆包实现文本、图像、语音、视频通话等多种能力提供技术基础。基于大语言模型能力下，豆包可以提供如以对话形式完成文本输入和输出的 AI 搜索、文案写作功能、网页摘要功能等；基于多模态技术能力下，豆包内嵌图片生成、视频生成、音乐生成、语音/视频实时通话等功能。强大的基础模型能力支持下，豆包作为一款 ToC 产品，在共性功能（搜索、写作等）上能较好满足用户需求，叠加多模态技术支持的各项功能打造差异化，构建过硬的产品综合表现。从显性的功能对比来看，我们认为值得关注的是基于豆包实时语音模型技术的通话功能，其语音表现、情绪承接等能力突出，带来用户体验感极佳的拟人陪伴效果，拟人化、IP 化或能在长期竞争中更好占领用户心智。 2）豆包在产品迭代策略上更具有用户思维，能更好融入到实际生活和工作场景。具体而言，一是注重单一功能从通用到专业的精细化迭代，比如对于搜索功能而言，除了通用的简单搜索，豆包基于自研推理模型上线深度思考模式，并且支持科研场景下的学术搜索。二是积极上线偏垂类的 AI 场景化功能，如创作（图片/视频/音乐/播客生成）、教育（解题答疑）、办公（数据分析、记录会议、PPT、编程）等。三是考虑用户端侧场景丝滑嵌入工作和生活流，如在豆包 APP 端上线日程提醒可以打通手机日历，豆包客户端/浏览器插件满足大屏阅读可以实时划词搜索翻译，豆包在移动端设计上更强调便捷、客户端更强调提高生产力效率，从而更好匹配用户不同的端侧需求。长期展望，我们也看好字节在生态上对豆包的支持，如在扣子创建的智能体可一键发布到豆包、丰富豆包内功能，再如字节体系内的内容打通，豆包可以接入抖音短视频、汽水音乐等带给用户更多元的搜索和使用体验。

用户侧数据也验证：1）行业层面，Chatbot 类 APP 需求持续增长，我们预计用户 MAU 从 24 年初的千万量级增长至 25 年 4 月的 3 亿多（加总不去重）；25 年 4 月头部产品月总时长达 3.6 亿小时，为去年同期的 19 倍；2）产品对比来看，豆包在 MAU 和单 MAU 月使用时长上的增长态势都很好，即使在 2 月 DeepSeek 的扰动下其他竞品的用户数据多出现不同程度的下滑，豆包保持增长持续性。

1）行业层面，Chatbot 产品在用户心智上持续渗透，其中 DeepSeek 和豆包在用户量和时长上显著领先。用户量角度，24 年 1 月 Chatbot 产品 MAU（不去重）加总为约 2 千万，25 年 4 月头部产品 DeepSeek 和豆包 MAU 分别达 1.7 亿和 1.2 亿。月使用总时长角度，25 年 2 月 DeepSeek 的发布显著带动行业需求增长，25 年 4 月头部产品月总时长达 3.6 亿小时，为去年同期的 19 倍。从 Top2 产品表现看，25 年 4 月 DeepSeek、豆包的月使用时长均在 1.5~1.6 亿小时， qoq 分别9%、+2%。

2）豆包情况看，用户数增长不受 DeepSeek 扰动，4月单用户月时长同比翻倍，留存情况较佳。 MAU/DAU：豆包自 2023 年 8 月上线，初期用户增长较缓，2024 年 5 月配合豆包大模型发布之际投流快速获客，此后持续增长，至 2025 年 4 月 MAU/DAU 达 1.2 亿/3135 万，是去年同期的接近 9/15 倍。对比竞品数据看，用户数变化的主要扰动项来自 DeepSeek 2 月发布后，3~4 月大部分 Chatbot 产品用户数环比有所下滑，例外是①腾讯元宝接入 DeepSeek 后 3 月 MAU/DAU 环比分别增长 58%/204%，但 4 月数据环比下降 33%/23%；②豆包环比持续增长，3/4 月 MAU 环比增长 14%/3%、DAU 环比增长 33%/8%。

单 MAU 月时长：从 2024 年 1 月~2025 年 4 月这一时间周期来看，以 24 年 1 月的数据观察，主要 Chatbot 产品的单 MAU 月使用时长基本在 25~30 分钟，差异不大。而随着时间推移，各家表现明显分化，豆包的单 MAU 月使用时长呈增长态势，和其他产品拉开差距，如 25 年 4 月豆包单 MAU 月使用时长达 80 分钟，为 24 年 1 月的 2.5 倍。

留存情况：豆包综合留存水平在 AI 助手 APP 中较优。我们从 DAU/MAU、单 DAU 日均使用次数、单 DAU 日均使用时长这三个指标评价 AI APP 的留存情况，2025 年 4 月豆包的 DAU/MAU 为 26%、单 DAU 日均使用时长为 10.1 分钟、单 DAU 日均使用次数为 5.3 次，综合留存情况处于领先。

因此从豆包用户数据增长的持续性来看，我们认为豆包在满足泛 C 端日常相对浅层的搜索和科普性需求上表现也许更好，诚然 DeepSeek 增长显著，其更多是补足工作场景中的深度思考需求，而现实中 C 端的即时搜索需求更为普遍，且豆包凭借桌面、web、应用 APP 等多端布局，和更富个性化、拟人化的形象，在用户工作和生活流的嵌入和卡位做得更好，用户数据的结果呈现上表现更佳。

1.2.2 看好豆包的基模技术和生态优势

追溯大模型热潮以来爆火的 AI 通用助手，如 kimi、文心一言、秘塔 AI、元宝、豆包、DeepSeek，会发现在当前的竞争阶段，AI 通用助手可以通过模型能力、数据来源、应用场景等打造差异化，从而吸引到一定用户流量，且在 AI 通用助手更迭出现的过程中，随着用户使用习惯的培养，后发者在具备显著差异化优势的情况下用户扩圈的速率更快。

（1）腾讯元宝：混元+DeepSeek 双引擎提升模型能力，公众号等高质量和微信内数据打造差异化

腾讯元宝于 2024 年 5 月 30 日上线，2025 年 2 月 13 日正式接入 DeepSeek-R1 满血版模型，配合投放推广，下载量一度拉升，点点数据显示腾讯元宝的下载量从 2 月前的峰值 3.6 万提升到 2 月下旬的 18 万左右。从竞争优势角度看，微信生态内数据的调用是元宝区别于其他 AI 应用助手的显著特征，比如公众号的高质量文章等，因此在对内容质量要求较高的定向搜索场景下，元宝有差异化的竞争优势。

（2）DeepSeek：模型能力差异化，适合深度分析和推理的场景需求

DeepSeek-R1 通过 MoE 和混合注意力机制，在模型训练中广泛应用强化学习，通过试错机制和环境反馈优化决策能力，体现出极强的推理能力，在多个基准测试中表现出色。根据 2025年 3 月的 SuperCLUE 总排行榜，DeepSeek-R1 以 70.33 分排行第 2，在国内大模型中排行第 1。因此， DeepSeek 更针对于专业的思考过程需求场景，和豆包的浅度搜索或可形成错位满足。

（3）豆包：自研模型提供文本、语音、图像等全面技术支撑，多元化场景构建 AI 生态

总结而言，我们认为目前 AI 通用助手的流量趋势，一定程度上说明其核心竞争力在于：①模型能力差异，如 DeepSeek-R1 在推理能力的优势、豆包大模型在推理模型和语音方面的技术优势； ②数据差异，如元宝在公众号、豆包在短视频端的数据积累区别；③场景，豆包在内嵌多元场景如教育、图像生成、工具效率，以及不同端侧的布局更为领先。

综上所述我们认为：（1）即使在超级 AI 应用没有出现的情况下，用户对于 AI 产品的使用程度也是在逐渐浸润提升的（且我们判断豆包可能就是最大的 ToC AI 应用），以 Chatbot 产品这一目前 C 端用户最高频使用的场景为例，25 年 4 月头部产品月总时长达 3.6 亿小时，为去年同期的 19 倍；（2）DeepSeek 对其他 Chatbot 产品数据带来扰动，而豆包各项运营指标持续向好，也证明了豆包优秀的产品力。正如字节管理层判断“AI 对话类（或称 Chatbot 类）产品可能只是 AI 产品的‘中间态’”，我们认为目前 AI 通用助手产品仍处于早期阶段，各家基于现有技术能力聚焦部分场景做用户需求验证，长期更具有想象力的模式或是将 AI 融入每个人的工作生活流，交互性、智能程度大幅提升。

1.3 AI 情感陪伴猫箱：产品能力强，多模态技术支持后发追赶

猫箱/Anydoor：AI 虚拟角色与剧情互动应用。用户可与多样化的虚拟 AI 角色实时聊天，也可以自定义虚拟 AI 角色，共同演绎剧情故事。同类产品为海外的 Character.AI、Talkie AI 以及国内的星野。从现有 AI 应用来看，AI 陪伴类应用因其类游戏玩法的内容属性、虚拟陪伴满足社交需求和提供情绪价值，在用户量和时长上都有更为景气的表现。从 MAU、DAU 情况看，根据 QuestMobile，2025 年 3 月猫箱的 MAU/DAU 为 351/115 万，虽然推出时间比星野晚，但是用户追赶迅猛已经和星野势均力敌。对比海外 Character.AI、Talkie AI 的 MAU 均为 3000 万以上，侧面验证了 AI 情感陪伴类应用的潜在市场空间。从时长角度看，字节猫箱的单 DAU 日均时长领跑竞品，2025 年 3 月达 125 分钟（抖音主站为 121 分钟），对比星野、Character.AI、Talkie AI 分别为 71、91、64 分钟。我们认为，相较竞对，字节运营猫箱的最大优势来自于底层大模型能力持续迭代、互联网时代积累下的 APP 运营经验。模型能力侧，前文也提到，字节在语言大模型、多模态模型、深度推理、语音模型等均有布局，且持续聚焦基础模型能力提升和模型应用适配，不断提升的模型能力是产品的立身之本，带来更真人化、交互更自然真实的 AI 角色，从根本上提升用户体验。应用运营侧，猫箱首页为类似抖音的单列上下滑 feeds 流，是字节在互联网时代探索出的成功经验，单列可以提升交互效率，更加精准把握用户喜好，基于用户反馈飞轮持续提升实际用户体验。

1.4 AI 图像/视频创作即梦：底模迭代提速，注重 C 端拓展

即梦/Dreamina：剪映旗下的 AI 创作平台，支持图片生成、智能画布和视频生成等功能。目前由张楠亲自带队，深入日常决策，即梦在字节内部以 AI 时代的“抖音”作为目标探索。我们认为，多模态能力对于字节、快手等短视频厂商来说具有更为重要的战略意义，一方面多模态生成工具帮助提升短视频内容的创作效率，将内容创作门槛进一步降低至通过自然语言交互即可完成创作，是下一个 AI 时代内容社区的生产基建；另一方面面向小 B 端的广告素材、电商素材等有望进一步降本增效，从而为主业的广告投放带来更多的预算和投放效率提升。模型能力看，图片/视频生成模型跑分均较为领先。（1）文生图：根据 Artificial Analysis 榜单，字节 Seedream 3.0 仅次于 OpenAI GPT-4o。参考科技痴狂公众号对文生图工具的横向测评，从功能、效率、成本三个维度评价，字节 Seedream 3.0 在图片生成速度上更快、且中文适配性表现最佳。技术报告中提到 Seedream 3.0 采用自研推理加速算法，在保持图文匹配、美学质量、结构准确度等指标几乎不受影响的情况下实现高效生图，1K 分辨率生图端到端耗时仅需 3 秒，且生成结果中中文和英文字符的文本可用率均达到 94%。（2）视频生成：根据 Artificial Analysis榜单，字节 Seedance 1.0、Google Veo 系列、快手可灵系列跑分领先。

即梦在用户策略上更侧重 C 端打法。从产品运营思路来对比，我们认为相比快手可灵的差异在于，字节即梦现阶段即更注重 C 端用户的拓展，体现在即梦 AI APP 和可灵 AI APP 的界面设计上，前者突出社区的内容分享属性，以“灵感”（用户内容分享频道）为首页，顶部设置了不同类型内容的 tab 入口，在界面设计上与抖音更为相似。而可灵的 tab 栏设计更为简洁，首页顶栏为图生视频、文生视频等创作键，更加突出产品工具属性，同时也设置“创意圈”作为用户内容分享阵地。用户数据也有所辅助验证，即梦在 APP 端的用户数据表现好于可灵，25 年 3 月即梦 APP MAU 为 893 万，对比可灵 APP MAU 为 180 万；然而在 Web 端，25 年 4 月即梦访问量为 710 万，对比可灵访问量为 2020 万。

1.5 硬件拓展：构建 AI+硬件生态，对外输出 AI 能力

对外合作多场景探索 AI 边界，对内布局 AI 硬件产品。在 AI 硬件的探索上，字节尝试对外合作输出 AI 能力+对内布局 AI 硬件产品两条腿走路的方式，外部合作上在陪伴、玩具、学习生活、智能穿戴设备等多场景进行 AI 赋能。对内，字节在 AI 玩具上布局有搭载豆包大模型的“显眼包”玩具；AI 硬件上字节于 2024 年 10 月发布首款 AI 智能耳机 Ola Friend，该款耳机接入豆包大模型，并与豆包 APP 深度结合。用户戴上耳机后，无需打开手机，只需喊出关键词“豆包豆包”，便能唤起豆包进行对话，后者能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。

二、ToB Agent：内部高度重视，Agent 生态服务最终落到火山云受益

技术推动 Chatbot 到 AI Agent 的范式转变。相比 Chatbot 是以对话为中心，根据用户发送的一条指令被动完成一轮交互，AI Agent 是以交付为中心，用户发送一个任务后，AI 自动分析任务、调用可用的工具、分析结果、过滤数据并自动处理异常，并呈现最终的解决方案。Agent 的技术本质是构建能够自主完成复杂任务的人工智能实体，其核心在于打通“认知-决策-执行”闭环，主要依赖于：

环境感知与多模态理解。相比早期语言大模型的单一文本模态，视觉、听觉、触觉等多模态输入使得 Agent 能直接理解图片、声音、视频时序等复杂数据，实现对物理与数字环境的动态解析，为复杂任务提供基础数据支持；

自主规划与动态推理。早期 Chatbot 在回答用户指令时，缺乏深度思考与推理过程，经常出现“幻觉”。基于思维链（CoT）、树状思考（ToT）等框架让大模型掌握在回答问题前自主推理的技能，实现任务拆解、路径优化与风险预判，从“执行者”升级为“决策者”；

工具调用与跨域操作。大模型早期主要通过 API 接口完成和外界交互，目前借助网页自动化工具、MCP 协议等技术，即可实现模型对浏览器的控制和各类工具的调用；

记忆增强与知识进化。早期大模型的上下文长度极为有限，短期记忆力表现不佳。RAG 检索增强生成方案和外部向量数据库的引入，有效弥补大模型长期记忆的短板，还显著减少幻觉问题。

字节内部判断 AI 将来最重要的主体是 Agent，2025 年是 Agent 元年。从 6 月 11 日字节火山引擎春季原动力大会的议程和会议内容，我们感受到字节内部对 Agent 的重视程度提升，火山引擎总裁谭待提到“2025 年是中国 Agent 落地的元年”，由此企业架构将面临全面转型，工作流变成以大模型为中心，以 IDE（集成开发环境）为入口，将云等产品捏合在一起，最后由 Agent 来负载的形态。因此我们认为在 Agent 开发范式下，云厂商的两个核心服务能力分别为底层模型能力（更智能、性价比更高的模型是做好 AI 应用的基础，我们在字节跳动 AI 底层架构篇报告中重点探讨了字节的模型实力和 AI 基模策略）、模型调用工具链路和方法论（下文重点讨论）。

搭建 Agent 全链路开发平台，扣子、HiAgent 重点面向专业开发者和企业客户。除了底层模型能力，扣子、HiAgent 作为一站式 Agent 构建平台，提供模型调用和 Agent 开发的全链路工具，包括模型调用和代码编写、实际效果评测、运营数据调优辅助等能力。从具体场景看，目前在智能客服、营销文案生成、智能导诊、基金投股助手、企业办公助手、销售陪练、智慧学伴、校园百事通、HR 助手等均有落地。我们认为字节通过输出一整套 Agent 开发能力和链路，将开发者和企业客户需求导向火山云服务体系内。2024 年 12 月扣子拥有超过 100 万活跃开发者，发布超过 200万个智能体。HiAgent服务的企业客户包括金融（招商银行等）、高校（浙江大学等）、零售（美宜佳等）、交通运输（春秋航空、顺丰科技等）、汽车（奔驰等）等。

火山引擎 MCP 致力于连接开发、生态和云服务三大要素。火山引擎 MCP 已打通 Agent 开发体系（火山方舟/Trae/Cursor/扣子）、大模型工具生态（以外部 MCP 协议为主，如平安征信、用友、什么值得买等）、云服务（以火山引擎内部云服务组件为主）链路，开发者可以便捷地完成计算网络存储的环境部署，直接调用相关工具，将创意高效落地为成熟产品。

我们认为，字节在 Agent 上的服务可以充分体现模型和云服务能力，Agent 场景构建下，最终火山云有望受益。字节在 Agent 服务上区别于其他云厂商的优势在于：（1）技术优势，在字节跳动 AI 底层架构篇报告中，我们重点介绍了字节在全模态模型上的布局，自研技术能力底座足够扎实；且从组织架构（25 年研发变化）和财务实力双维度都能支撑其长期 AGI 战略的定力和持续性；（2）场景和生态优势，字节扣子的智能体布局，可为 Agent的打造作前端开发链路探索和后端用户需求验证。前端来看，不同类型智能体的开发，帮助字节积累各场景下的开发服务经验；后端来看，扣子生成的智能体可一键发布到豆包 APP 端，构建豆包功能生态的同时，也有助于在豆包 1.4 亿 MAU（25 年 6 月数据）的流量池里遴选和验证具有潜力的 Agent 功能和 AI 应用，在用户使用智能体的过程中沉淀数据、观测用户需求。从其他厂商情况看，腾讯元器、通义星尘分别是腾讯和阿里在智能体上的布局，类似于豆包的作用，腾讯元宝、阿里通义可以承接用户创建的智能体。但从生态站位看，我们认为字节豆包和腾讯元宝的智能体平台或能吸引更多专业开发者，原因是字节（抖音 DAU 8 亿、豆包也成长为 DAU 超 3000 万的 AI 通用助手 APP）和腾讯（微信生态）的用户场景对流量的承接性更好。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）