2023年传媒行业年度策略报告：OpenAI的拐点，重启“趋势性”增长

方正证券2023/10/30
举报

一.OpenAI的财务改善：用户付费重启增长

付费率：持续增长，不只是开学效应

ChatGPT美国地区移动端付费率于八月底九月初出现增长拐点，全球地区移动付费率于七月底八月初出现增长拐点。预期Vision、Voice、DALL·E3的多模态功能将奠定后续几个月的付费率增长。GhatGPT于6到8月份的移动端付费率增长呈现疲软状态，OpenAI亏损压力大，有关于为降低亏损压缩性能的新闻也随之增多。7月初，代码解释器（Code Interpreter）等功能的开发推动了越来越多的用户为其付费。移动端付费率大幅增长后，OpenAI也随之在GhatGPT 中推出了新的图像功能和语音功能。

接入OpenAI API的应用：全球付费习惯养成

全球热门类GhatGPT应用（接入OpenAI API的应用）总体付费率呈现增长趋势，全球AI付费习惯逐步形成。自 2023年6月以来，除本身具有高付费率的Chat AI的美国和全球地区的移动付费率有所回落，其他类ChatGPT应用的美国和全球地区的移动付费率都出现了不同程度的增长。

付费用户对不同插件的需求：PDF和搜索

增长较为明显的插件应用类型主要为PDF、搜索类。PDF阅读类应用（AI PDF、AskYourPDF）及搜索类应用（MixerBox WebSearchG、KeyMate.AI Search、WebPilot）在接入Chatgpt plugins后出现访问量上升的趋势，笔记类应用（Noteable）也出现了先升后降的趋势，而其他插件应用则无明显变化。

Open AI总算力成本：GPT-3.5压缩两次

假设每用户平均使用8次/天，未压缩的GPT-3.5/GPT-4在2500万DAU及高并发条件下分别需21.8/53.1万GPUs。计算GPT-3.5的算力时，我们的假设条件为用户平均请求次数为10次，但根据实际的用户使用情况，平均每个活跃用户每天发送7~8次请求。若每用户平均请求8次，GPT-3.5和GPT-4模型在2500万日活用户及高并发条件下分别需要21.8万、53.1万GPUs（27.2/10*8）。假设ChatGPT共有6000万DAU，每用户平均8次请求次数的条件下，压缩两次（*75%*75%）后的GPT-3.5/GPT-4全年整体算力成本约为37.9亿美元。如果GPT-3.5的成本大约下降两次25%，在6000万DAU，每用户平均8次请求次数的条件下，GPT-3.5整体算力成本约为35.5亿美元，GPT-4整体算力成本约为2.3亿美元，整体所需算力成本共约37.9亿美元。

二.OpenAI的读图：GPT4 Vision

ChatGPT多模态：从“灰度测试”到“全面放开”

9月25日，OpenAI宣布在ChatGPT中向部分会员推出新的“读图”和“语音”功能，ChatGPT多模态能力升级。为更好地吸引新用户进入，OpenAI并未将新功能全部面向用户推出，而是采用了分批开放的策略。

“读图”多模态竞争：GPT4 Vision vs AnyMAL vs Gemini

GPT4 Vision：9月25日，OpenAI宣布推出名为GPT4 Vision的多模态模型。OpenAI希望以“GPT4 Vision”的名义更广泛地提供图像理解，将为GPT-4打开许多新的基于图像的应用程序，例如生成匹配图片的文本等。据外媒The Information爆料，在GPT-Vision之后，OpenAI可能会推出更加强大的多模态大模型，名为Gobi。与GPT-4不同的是， Gobi一开始就被设计为多模态。

AnyMAL：9月底，来自Meta的研究人员发布了关于AnyMAL的研究，这是一个经过训练的多模态编码器集合，可将来自各种模态（包括图像、视频、音频和IMU运动传感器数据）的数据转换到LLM的文本嵌入空间。

Gemini：据The Information，Gemini将于今年秋季正式发布。目前，谷歌已经对一些外部公司开放了多模态大模型 Gemini的功能。Gemini由一组大型语言模型组成，可能使用MOE架构与投机采样（Speculative Sampling）技术，通过小模型提前生成token传输至大模型进行评估，提高模型总推理速度。

多模态模型原理：视觉模型（CLIP）+文本模型

OpenAI的开源视觉模型——CLIP：当前开源的版本是参数量相对较小的版本，ChatGPT4使用的版本参数量更大。2021 年年初，OpenAl发布的CLIP模型 (Contrastive Language-lmage Pre-training)的基础版本 (也称为CLIP-ViT)包含了约 4.9亿个参数。

Salesforce开源视觉模型——BLIP2：BLIP2由以下三个模型组成：图像编码器（Image Encoder），Q-Former和LLM，可通过利用预训练好的视觉模型image Encoder和语言模型LLM来提升多模态效果和降低训练成本。

Meta开源视觉模型——Nougat model:可执行光学字符识别（OCR）任务，将科学文档处理成标记语言。Nougat 用到了2个Swin Transformer，参数量分别为350M、250M。

谷歌开源视觉模型——Pix2Struct：一种image encoder-text decoder模型，针对各种任务（包括图像字幕和视觉问答）对图像文本对进行训练。主要训练的基于BERT-base初始化的Q-Former只有188M的参数量。

开源多模态模型案例：以阿里mPLUG-Owl为例

1.模型结构：视觉模块采用CLIP ViT-L/14 (openai开源)，语言模块采用LLaMA。 2.模型训练：视觉和语言模态间的对齐:冻住LLM的参数，采用 LAION-400M，COYO-700M，CC以及MSCOCO训练视觉基础模块和视觉摘要模块。指令微调：冻住视觉基础模块、视觉摘要模块和原始LLM的参数，参考LoRA，只在LLM引入少量参数的 adapter结构用于指令微调。

多模态应用场景

多模态ChatGPT结合了文本和其他模态（如图像、音频、视频等）的处理能力，可以应用于各种场景，如办公场景、教育场景、医疗诊断场景等，为用户提供更丰富、智能和个性化的对话和交互体验。例如，ChatGPT可以初步分析患者的病情，提高医生的诊疗效率。此外，ChatGPT还可以通过图像分析和处理，帮助视障人士理解周围环境。

三.OpenAI的画图：DALL·E3或将抢夺MJ付费用户

文生图 DALL·E3 VS Midjourney

DALL·E系列是由OpenAI开发的一系列基于大型语言模型的文本到图像生成系统。根据OpenAI的描述，DALL·E3是在 ChatGPT上原生构建的，它可以让ChatGPT用作集思广益的合作伙伴和提示的细化。相比于 Midjourney，融合ChatGPT 超级大脑的DALL·E3，降低了提示词门槛，可以根据简单的句子或详细的段落生成相关图片。DALL·E3目前可以在 ChatGPT4的网页端和移动端使用。

会员权益：DALL·E3的会员接近Midjourney大型计划

按照6小时/天的工作时间计算，订阅费用为20美元/月的DALL·E3同Midjourney的订阅费用为120美元的大型计划每月所允许生成的图片组数相近。收费模式：目前，Midjourney有四种订阅模式（每个月10/30/60/120美元），DALL·E3是为ChatGPT Plus用户推出的功能，其收费即为Plus订阅收费标准20美元/月。使用限制：Midjourney的标准计划、专业计划和大型计划会提供无限的Relax模式时间，Fast模式会有相应的限额（每个月3.3/15/30/60小时）,深度用户在Fast模式下平均每天使用2小时，大约可以生成80-90组图片；若 DALL·E3按照GPT-4每3小时使用50次的限制，每天六小时可生成100组图片。

Midjourney用户使用情况对比

根据Midjourney用户使用时间采样数据，Midjourney平均使用Relax模式约41分钟，Fast模式平均使用约84分钟，平均每天生成56组图片。DALL·E3若按GPT-4每3小时使用50次的限制，则每天三小时可生成50组图片，略低于 Midjourney的使用。

四.语音多模态：扩大用户群体

渗透潜力：AI语音>智能手机>PC设备

新增语音功能进一步降低了使用门槛，有助于ChatGPT进一步扩大用户群体。新功能推出后，用户可以直接通过语音与 ChatGPT进行交流，用户无需再具备打字能力。据第52次《中国互联网络发展状况统计报告》，截至2023年6月，使用手机上网的用户群体高达99.8%，而使用台式电脑、笔记本电脑上网的用户群体仅为34.4%和32.4%。PC设备要求用户具备打字能力，使用门槛较手机高，而ChatGPT的语音功能仅需用户会说话即可，进一步提升了功能的渗透潜力。

新增语音功能或将重塑一对一辅导教育

ChatGPT实现与用户使用语音进行实时交互，或将重塑一对一辅导教育。语音多模态推出后，用户只需轻触按钮，用语音提问问题，ChatGPT将自动生成回答，并将回答转换为语音播放给用户。这一交互方式更加自然和便捷，使得用户可以像与人对话一样与AI进行交流，从而享受定制化、个性化的学习体验。 ChatGPT新增语音功能可以为用户提供一对一的口语交流，帮助用户进行语言学习。

五.多模态API：11月6日OpenAI开发者大会前瞻

视觉多模态API

1、多模态API：11月6日首届开发者大会上，OpenAI或将推出年度重磅更新——视觉多模态API。 2、多模态应用场景：据量子位公众号整理，在YC Alumni Reunion 2023上，奥特曼表示看好AI在医学、教育上的赋能——AI医学顾问以及AI个性化一对一辅导。这两者社会价值都十分巨大。此外，OpenAI正在筹建 OpenAI学院，预计2023年底启动。它有可能是人人可访问的免费在线教学系统，老师能与GPT-5来互动，在课程期间接收反馈和指导。GPT-4化身AI学习助手，既可以作为学生的虚拟导师，又可以作为教师的课件助手。

中小开发者：Python OpenAI package下载量

使用Python调用OpenAI的API需下载其package，在代码中导入该库，就可以调用ChatGPT接口。 OpenAI提供三种安装方式：Python库、Node.js库和Azure OpenAI库（OpenAI API 和 Azure OpenAI服务兼容）。 OpenAI Python package提供了从用Python语言编写的应用程序对OpenAI API的便捷访问。它包含一组预定义的 API资源类，这些类可根据API响应动态初始化自身，使其与OpenAI API的各种版本兼容。最新阶段：根据硅发布公众号，OpenAI正在疯狂地降低API价格，开发者们已经收到支票退款。

API利润率分析：不同折扣下的利润率

根据GPT-4揭秘内容，GPT-4 8k推理成本约为0.0049美元/1k token，约为GPT-3.5的3倍，GPT-3.5的推理成本约为0.0016 美元/1k token。据OpenAI官网，GPT-3.5 4k调用Output的面值价格为0.002美元/1k token； GPT-4 8k调用Output的面值价格为0.06美元/1k token。由于API的实际价格可能会出现波动，在不同的实际折扣下，其利润率也不同。若GPT-4 8k推理成本约为0.0049美元/1k token，API实际折扣为官网名义价格的七分之四时，GPT-4 8k和GPT-3.5 4k API 的销售利润率分别约85.71%、18.33%，成本利润率分别约为599.71%、22.45%，GPT-4的API利润率明显高于GPT-3.5。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）