2025年计算机行业AI应用新范式专题报告:从工具革命到“超级OS”的演进与商业化路径

一、Chatbot正在向Super OS迭代

OpenAI DevDay 2025被外界普遍认为是OpenAI试图将其AI能力整合为“超级操作系统”(Super OS)的关键一步。与往年相比,2025年的DevDay目标更加清晰:将ChatGPT打造为一个平台或操作系统。OpenAI不再满足于提供API,而是希望开发者能直接在OpenAI的平台上构建、部署和分发复杂的AI应用和Agents。OpenAI的战略目标是构建一个贯穿用户生命周期的AI Agent。实现路径是以ChatGPT为核心,通过API服务与第三方应用生态集成,旨在实现泛在接入,并基于对用户历史数据的上下文感知能力,提供个性化的体验。

对于ChatGPT向Super OS进化的几点思考: 1)GPT Apps SDK 的发布,标志着AI完成了从“应用工具”到“平台”,并最终走向“操作系统”的最关键一步。它不是一次简单的功能更新,而是一次根本性的“升维”。主要体现在几个层面: A.确立了“意图层操作系统”。传统的操作系统(Windows, iOS)是“应用层”的:用户必须先想好要用哪个App,然后打开它,再进行操作。而以ChatGPT为核心的Super OS是“意图层”的:用户只需表达意图,如“帮我规划一个去xx的5天行程,并预订性价比最高的机票和酒店”。OS负责执行和编排: AI作为OS,会自主理解这个复杂意图,并自动调用最合适的“Apps”(如Expedia, Booking.com,GoogleMaps等)来组合完成任务,最后将结果呈现给用户。 B.将主要交互界面从“图形”转向“对话”。过去我们习惯了点击图标和菜单。而Super OS将自然语言对话(Prompt)变成了新的命令行。用户不再需要学习复杂的软件界面,只需用最自然的方式下达指令。Apps SDK使得这些指令可以直接转化为具体应用的执行结果。C.打造了全新的、强大的网络效应。一个OS的生命力在于其生态,Apps SDK就像苹果推出App Store一样,开启了一个正向飞轮:更多Apps接入-> Super OS能力更强,能解决更复杂的问题-> 吸引更多用户,用户粘性更高 -> 吸引更多开发者将自己的App接入SDK。D.实现了流程的自动化。Apps SDK允许开发者将他们App的核心功能授权给AI(例如,Expedia的“查航班”功能,Canva的“生成PPT”功能)。Super OS则可以像搭积木一样,将这些来自不同App的核心能力自动化地串联起来,形成复杂的工作流,这是传统OS无法做到的。2)把APP装进chatbot是OpenAI继之前插件(Plugins)失败后,更进一步的尝试。OpenAI 当前选择的模式,是一个战略性的、阶段性的、极其高明的“和平协议”,这为AI模型向AI Agent演进的实现路径提供了范式。 以往对AI Agent工作模式的构想,常陷入一个商业悖论:AI执行订餐、订酒店等任务需依赖第三方平台,但其自主决策过程却会绕过这些平台的广告推荐系统,将其“降维”成一个纯粹的数据库,所以三方应用接入AI的意愿可能不强。然而,ChatGPT的最新集成巧妙地化解了这一冲突。它将自身角色限定在前端的用户意图理解,而将执行层完全交还给第三方,保留其原生的UI、品牌及商业逻辑——例如Zillow依旧全权掌控其广告位和经纪人推荐。OpenAI借此“赋能而非吸血”的模式,通过一个SDK便将行业巨头数十年的专业积累,无缝转化为自身操作系统的原生能力,这可能是现阶段最高效的扩张路径,同时这种方式也极大地消除了开发者的戒心,激励他们主动拥抱新生态,从而加速形成强大的网络效应。

二、AI视频生成模型梳理

当前,全球主流AI视频生成模型的竞争核心已从单纯的技术比拼,转向市场定位与产品战略的差异化。各模型在生成质量上并没有显著差异,只是在产品形态、功能侧重上的不同,比如OpenAI的Sora正被打造为一款独立的社交娱乐应用,其核心创新是允许用户创建个人数字形象(“Cameo”)并用于视频创作与社交互动,旨在构建一个创作者为中心的娱乐生态。Google Veo3在业内首先推出原生音频功能,可以在生成视频画面的同时,同步生成与之匹配的音频,包括环境音、音效甚至人物对话。能深刻理解并执行复杂的视觉和电影风格指令,例如“延时摄影”、“航拍镜头”等。RunwayML聚焦于为专业影视制作和创意工作流提供支持,强调对生成过程的精细控制(如如光效、运动追踪)。可灵的产品形态与Sora类似,聚焦于社交娱乐赛道,但能够在保证生成质量的同时凸显价格优势。

To C端,业内一般采用订阅制/积分制。谷歌通过订购AI会员使用Veo生成视频,其中有3个渠道,Gemini端可以用Veo模型生成视频,无需消耗积分,但Pro会员每天最多生成3部视频,Ultra会员每日上限为5部。此外Flow和Whisk端可以消耗积分生成视频,不同模型所对应积分也有所区别,Pro账户下Veo-3 Fast和Quality单部视频生成成本分别为0.4美元/2美元; Runway Standard和Pro用户单月订阅费为$15和$35,按Gen-4Turbo模型生成10秒视频成本计算,对应每月生成次数为12.5和45.0次,每部视频对应花费1.2和0.8美元;Pika Standard、Pro和Fancy用户单月订阅费为$10/$35/$95,按Pika 2.2模型生成成本计算,每月可生成视频次数为20/66/171,对应每部视频花费0.5/0.5/0.6美元;可灵黄金、铂金、钻石、黑金会员单月订阅费为66/266/666/1314元,按2.5 Turbo生成10秒视频成本计算,对应单月生成次数为13/60/160/520次,对应每部视频花费0.7/0.6/0.6/0.4美元;OpenAI Sora 不使用积分制,Sora的视频生成能力直接与ChatGPT 订阅等级挂钩,对应生成视频分辨率和时间长度不同。简单来说,Sora的模式可以理解为“无限生成”,但会根据订阅方案在优先级、质量和功能上有所限制。

价格差异巨大:不同模型及不同版本之间的定价差异显著,从最便宜的每秒 $0.05 (Runway gen4_turbo) 到最昂贵的$0.50(Sora-2-pro 最高版),价格相差达10倍。普遍采用分级定价:所有四家公司都采用了清晰的“阶梯式”或“分级”定价策略,针对不同质量、速度和功能提供不同价位的版本(如 Pro版、Fast版、大师版、标准版等)。Sora 定位最高端市场:OpenAI的Sora,特别是其Pro版本,占据了市场的最高价格点。其顶配版价格($0.50/秒)远超其他所有模型,显示出其对标专业、电影级制作的商业定位;Runway 和 Kling 提供最具性价比的选项:Runway的gen4_turbo和快手的Kling V2.1 Std分别以$0.05/秒和$0.06/秒的价格,成为市场上最具成本效益的选择,非常适合需要快速、大量生成视频的用户。

三、AI生图主流模型梳理

Nano Banana的出现,标志着文生图模型的核心价值主张正在从纯粹的“从无到有”的图像生成,转向更为实用和高频的图像编辑。其最受赞誉的功能,是利用简单、自然的语言指令对现有图像进行精确的局部修改。用户不再需要掌握Photoshop等专业软件复杂的遮罩、图层和选择工具,只需输入“给这个人物换上一件黑色夹克”、“移除背景中的路人”或“将这只狗的万圣节服装可视化”,模型就能精准地理解并执行这些操作 。 这项能力的核心突破在于其卓越的“相似性保持”(likeness preservation)或称“角色一致性”(character consistency)。在以往的模型中,即便是微小的编辑也常常导致主体人物的面部特征发生扭曲或身份漂移,即“看起来像但又不是同一个人”的“恐怖谷”效应。Nano Banana通过其先进的架构和训练方法,很大程度上解决了这个问题,能够在进行大幅度背景替换、服装更改甚至姿势调整的同时,保持主体人物身份的高度可识别性。正是这一关键技术的成熟,使其在“3D手办”潮流中能够生成与原始自拍高度相似的手办面孔,从而赢得了用户的信任和喜爱。 如果说LMArena的胜利为Nano Banana赢得了技术界的尊重,那么随后爆发的“3D手办”潮流则将其推向了文化现象的高度,成为其用户增长的强大引擎。在模型正式发布后不久,社交媒体上涌现出一种新的创意玩法:用户上传自己的自拍照或喜爱角色的图片,然后使用Nano Banana将其转化为看起来像真实世界中高度精细的收藏级3D手办模型。这些生成的图片不仅仅是风格转换,从手办本身的光泽质感、清晰的轮廓,到带有角色艺术图的包装盒、透明的亚克力底座,甚至背景中显示着3D建模软件(如Blender)界面的电脑屏幕,这种超现实的细节水平,完美地展示了Nano Banana最核心的技术优势:无与伦比的角色一致性(确保手办的面部特征与原图高度一致)、对复杂长文本的深刻理解能力以及卓越的真实感渲染能力。

除通用目的的AI生图外,To B领域AI生图主流产品都具备自身独特的强项: Midjourney强项是艺术表现力,在概念艺术、插画和风格化视觉设计领域几乎没有对手,已牢固确立了其作为数字艺术家和设计师首选高端工具的地位。它的核心竞争力在于产出具有高度艺术感、电影级质感和独特审美风格的图像。Midjourney V7版本进一步强化了其风格化控制能力。其独特的、基于Discord社区的交互方式,虽然对新手构成了一定的学习曲线,但同时也培养了一个活跃的、分享创作经验的用户社群。 Stable Diffusion是文生图领域最重要的开源模型,强项是开放性和图像的精准控制。最大的优势在于极高的可定制性:用户可以在自己的数据集上对模型进行微调(fine-tuning),训练专门的风格或角色模型(LoRA),并结合ControlNet等工具实现对生成图像姿态、构图的像素级精准控制,但需要较高的技术门槛。 Adobe Firefly是专为商业和企业环境设计的文生图模型,其最核心的差异化优势在于“商业安全”。Adobe承诺Firefly完全基于Adobe Stock图库中的授权内容、开放许可内容和不受版权限制的公有领域内容进行训练,从而从源头上解决了AI生成内容的版权争议问题。另一大优势是与Adobe Creative Cloud全家桶(如Photoshop, Illustrator)的深度无缝集成,允许设计师在熟悉的专业工作流程中直接调用AI能力。 Ideogram能够脱颖而出的强点:在生成的图像中稳定、准确地渲染可读的文本。长期以来,让AI在图片中写出正确的文字一直是一个技术难题,而Ideogram 1.0版本在这一点上取得了突破性进展。这一能力使其在特定领域具有不可替代的价值,例如设计包含文字的Logo、海报、社交媒体帖子、T恤图案等。

四、高估值/ARR AI应用公司梳理

Grammarly:作为AI写作辅助领域的先驱,正面临通用大语言模型带来的颠覆性挑战。为此,公司正积极推出AI Agent,从单一的写作工具向更广泛的综合生产力平台转型,以捍卫其市场领导地位。 Otter.ai:在成功开创AI会议转录市场后,正陷入核心功能被大型平台(如Zoom、Microsoft Teams)集成的竞争当中去。Otter.ai其战略重心已从简单的会议转录转向提供更高附加值的会议智能服务,如推出面向特定垂直领域(如销售、教育)的AI Agent执行WorkFlow。 Lovable AI:以惊人的速度验证了“文本到应用”模式的巨大市场潜力,通过无代码模式实现了软件开发的大众化。其指数级的收入增长展示了通过AI降低技术门槛所能释放的巨大商业价值,但同时也面临着AI生成代码的长期可维护性和技术债等潜在挑战。Talkie.ai:MiniMax开发的B2C社交AI陪伴应用,它在全球市场取得了巨大成功,证明了AI在情感陪伴和娱乐领域的强大变现能力。Suno AI:全球领先的AI音乐生成应用,能够根据用户输入的文本提示词进行高质量的音乐创作。

五、垂类AI领域公司举例

垂类AI领域梳理——金融

Lemonade: AI原生保险: Lemonade的整个运营流程几乎完全由AI驱动,旨在最大化效率、降低成本并提升用户体验。 ①AI Maya - 智能获客与核保: 当用户首次接触Lemonade时,与他们互动的是AI机器人Maya。 Maya能在90秒内完成报价和核保流程。它通过与用户进行简单、自然的对话,收集必要信息, 并利用AI算法实时评估风险、计算保费。这取代了传统保险中冗长的表格填写和人工核保过程。 ②AI Jim - 闪电理赔处理: Lemonade最著名的创新是其AI理赔机器人Jim。当客户提交索赔时 ,AI Jim会启动一系列反欺诈算法进行分析。对于简单的、无疑点的索赔,Jim可以在3秒内完成 审核并支付赔款。这种极致的速度和便利性是传统保险公司无法比拟的,极大地提升了客户满意 度和忠诚度。 ③Forensic Graph - 精准风险评估与反欺诈: Lemonade利用其收集的海量数据点(远超传统 保险公司)构建了“法证图谱”。AI通过分析用户行为、设备信息、索赔历史等多维度数据,能够 更精准地识别潜在的欺诈行为,并动态调整风险模型。这使得Lemonade的赔付率(Loss Ratio )得以持续优化。 ④自动化客户服务: 除了Maya和Jim,AI还被用于处理大量的客户咨询和服务请求,实现了 7x24小时的自动化运营,大幅降低了人力成本。

今年以来股价增长原因? 赔付率持续改善: 随着其AI模型积累的数据越来越多,其风险评估和定价能力变得愈发精准。 2025年公司的综合赔付率(Gross Loss Ratio)呈现稳步下降趋势,这直接关系到其核心业务的 盈利能力。 经营效率提升,迈向盈利:AI驱动的高度自动化使其运营成本远低于传统保险公司。随着业务规 模的扩大,规模效应愈发明显。

垂类AI领域梳理——教育

AI 对Duolingo的核心赋能: 1. Birdbrain AI:精准评估用户水平:在用户刚开始学习或完成一个单元时,Birdbrain AI会通过少量题目迅速评估出你的知识掌握程度。动态调整课程难度:AI实时分析用户的每一次答题——无论是正确、错误,还是反应时间,从而判断用户对某个知识点(如一个单词或一条语法)的掌握情况。如果频繁出错,系统会自动增加相关练习;如果掌握得很好,就会引入新内容。智能“遗忘曲线”复习:基于艾宾浩斯遗忘曲线理论,AI能预测用户何时可能会忘记某个知识点,并在最恰当的时机安排复习,最大化长期记忆效果。2. 生成式AI赋能的“Max”订阅服务 :多邻国全面整合了OpenAI的GPT-4等大语言模型,推出了名为“Max”的高级订阅服务,提供了两大革命性功能:“Explain My Answer”(解释我的答案):当用户答错题目时,不再只是看到一个正确答案。用户可以点击按钮,让AI角色“Duo”用清晰、自然的语言为你详细解释为什么你的答案是错的,并提供相关的语法规则和例句。这相当于拥有了一位随时待命的私人教师。“Roleplay”(角色扮演):用户可以与AI进行开放式的场景对话,比如在巴黎的咖啡馆点餐,或者与朋友讨论周末计划。AI能够像真人一样进行互动,并根据对话内容提供反馈。这极大地弥补了传统App学习中“开口难”的短板,提供了宝贵的口语练习机会。3. 内部运营效率的提升 AI不仅用于前端教学,也用于后端内容创作。多邻国利用AI辅助生成和评估新的练习题、故事和课程内容,大大加快了新课程的开发速度,并降低了内容制作成本。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告