付费率:持续增长,不只是开学效应
ChatGPT美国地区移动端付费率于八月底九月初出现增长拐点,全球地区移动付费率于七月底八月初出现增长拐点。 预期Vision、Voice、DALL·E3的多模态功能将奠定后续几个月的付费率增长。GhatGPT于6到8月份的移动端付费率 增长呈现疲软状态,OpenAI亏损压力大,有关于为降低亏损压缩性能的新闻也随之增多。7月初,代码解释器(Code Interpreter)等功能的开发推动了越来越多的用户为其付费。移动端付费率大幅增长后,OpenAI也随之在GhatGPT 中推出了新的图像功能和语音功能。
接入OpenAI API的应用:全球付费习惯养成
全球热门类GhatGPT应用(接入OpenAI API的应用)总体付费率呈现增长趋势,全球AI付费习惯逐步形成。自 2023年6月以来,除本身具有高付费率的Chat AI的美国和全球地区的移动付费率有所回落,其他类ChatGPT应用 的美国和全球地区的移动付费率都出现了不同程度的增长。
付费用户对不同插件的需求:PDF和搜索
增长较为明显的插件应用类型主要为PDF、搜索类。PDF阅读类应用(AI PDF、AskYourPDF)及搜索类 应用(MixerBox WebSearchG、KeyMate.AI Search、WebPilot)在接入Chatgpt plugins后出现访问 量上升的趋势,笔记类应用(Noteable)也出现了先升后降的趋势,而其他插件应用则无明显变化。
Open AI总算力成本:GPT-3.5压缩两次
假设每用户平均使用8次/天,未压缩的GPT-3.5/GPT-4在2500万DAU及高并发条件下分别需21.8/53.1万GPUs。计算GPT-3.5的 算力时,我们的假设条件为用户平均请求次数为10次,但根据实际的用户使用情况,平均每个活跃用户每天发送7~8次请求。 若每用户平均请求8次,GPT-3.5和GPT-4模型在2500万日活用户及高并发条件下分别需要21.8万、53.1万GPUs(27.2/10*8)。 假设ChatGPT共有6000万DAU,每用户平均8次请求次数的条件下,压缩两次(*75%*75%)后的GPT-3.5/GPT-4全年整体算力成 本约为37.9亿美元。如果GPT-3.5的成本大约下降两次25%,在6000万DAU,每用户平均8次请求次数的条件下,GPT-3.5整体算 力成本约为35.5亿美元,GPT-4整体算力成本约为2.3亿美元,整体所需算力成本共约37.9亿美元。
ChatGPT多模态:从“灰度测试”到“全面放开”
9月25日,OpenAI宣布在ChatGPT中向部分会员推出新的“读图”和“语音”功能,ChatGPT多模态能力 升级。为更好地吸引新用户进入,OpenAI并未将新功能全部面向用户推出,而是采用了分批开放的策略。
“读图”多模态竞争:GPT4 Vision vs AnyMAL vs Gemini
GPT4 Vision:9月25日,OpenAI宣布推出名为GPT4 Vision的多模态模型。OpenAI希望以“GPT4 Vision”的名义更 广泛地提供图像理解,将为GPT-4打开许多新的基于图像的应用程序,例如生成匹配图片的文本等。据外媒The Information爆料,在GPT-Vision之后,OpenAI可能会推出更加强大的多模态大模型,名为Gobi。与GPT-4不同的是, Gobi一开始就被设计为多模态。
AnyMAL:9月底,来自Meta的研究人员发布了关于AnyMAL的研究,这是一个经过训练的多模态编码器集合,可将来自 各种模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换到LLM的文本嵌入空间。
Gemini:据The Information,Gemini将于今年秋季正式发布。目前,谷歌已经对一些外部公司开放了多模态大模型 Gemini的功能。Gemini由一组大型语言模型组成,可能使用MOE架构与投机采样(Speculative Sampling)技术,通过 小模型提前生成token传输至大模型进行评估,提高模型总推理速度。
多模态模型原理:视觉模型(CLIP)+文本模型
OpenAI的开源视觉模型——CLIP:当前开源的版本是参数量相对较小的版本,ChatGPT4使用的版本参数量更大。2021 年年初,OpenAl发布的CLIP模型 (Contrastive Language-lmage Pre-training)的基础版本 (也称为CLIP-ViT)包含了约 4.9亿个参数。
Salesforce开源视觉模型——BLIP2:BLIP2由以下三个模型组成:图像编码器(Image Encoder),Q-Former和LLM, 可通过利用预训练好的视觉模型image Encoder和语言模型LLM来提升多模态效果和降低训练成本。
Meta开源视觉模型——Nougat model:可执行光学字符识别(OCR)任务,将科学文档处理成标记语言。Nougat 用到 了2个Swin Transformer,参数量分别为350M、250M。
谷歌开源视觉模型——Pix2Struct:一种image encoder-text decoder模型,针对各种任务(包括图像字幕和视觉问 答)对图像文本对进行训练。主要训练的基于BERT-base初始化的Q-Former只有188M的参数量。
开源多模态模型案例:以阿里mPLUG-Owl为例
1.模型结构:视觉模块采用CLIP ViT-L/14 (openai开 源),语言模块采用LLaMA。 2.模型训练:视觉和语言模态间的对齐:冻住LLM的参数,采用 LAION-400M,COYO-700M,CC以及MSCOCO训练视觉基础 模块和视觉摘要模块。 指令微调:冻住视觉基础模块、视觉摘要模块和原 始LLM的参数,参考LoRA,只在LLM引入少量参数的 adapter结构用于指令微调。
多模态应用场景
多模态ChatGPT结合了文本和其他模态(如图像、音频、视频等)的处理能力,可以应用于各种场景,如办公场景、 教育场景、医疗诊断场景等,为用户提供更丰富、智能和个性化的对话和交互体验。例如,ChatGPT可以初步分析 患者的病情,提高医生的诊疗效率。此外,ChatGPT还可以通过图像分析和处理,帮助视障人士理解周围环境。
文生图 DALL·E3 VS Midjourney
DALL·E系列是由OpenAI开发的一系列基于大型语言模型的文本到图像生成系统。根据OpenAI的描述,DALL·E3是在 ChatGPT上原生构建的,它可以让ChatGPT用作集思广益的合作伙伴和提示的细化。相比于 Midjourney,融合ChatGPT 超级大脑的DALL·E3,降低了提示词门槛,可以根据简单的句子或详细的段落生成相关图片。DALL·E3目前可以在 ChatGPT4的网页端和移动端使用。
会员权益:DALL·E3的会员接近Midjourney大型计划
按照6小时/天的工作时间计算,订阅费用为20美元/月的DALL·E3同Midjourney的订阅费用为120美元的大型计 划每月所允许生成的图片组数相近。 收费模式:目前,Midjourney有四种订阅模式(每个月10/30/60/120美元),DALL·E3是为ChatGPT Plus用户 推出的功能,其收费即为Plus订阅收费标准20美元/月。 使用限制:Midjourney的标准计划、专业计划和大型计划会提供无限的Relax模式时间,Fast模式会有相应的限 额(每个月3.3/15/30/60小时),深度用户在Fast模式下平均每天使用2小时,大约可以生成80-90组图片;若 DALL·E3按照GPT-4每3小时使用50次的限制,每天六小时可生成100组图片。
Midjourney用户使用情况对比
根据Midjourney用户使用时间采样数据,Midjourney平均使用Relax模式约41分钟,Fast模式平均使用约84分钟, 平均每天生成56组图片。DALL·E3若按GPT-4每3小时使用50次的限制,则每天三小时可生成50组图片,略低于 Midjourney的使用。
渗透潜力:AI语音>智能手机>PC设备
新增语音功能进一步降低了使用门槛,有助于ChatGPT进一步扩大用户群体。新功能推出后,用户可以直接通过语音与 ChatGPT进行交流,用户无需再具备打字能力。据第52次《中国互联网络发展状况统计报告》,截至2023年6月,使用手机 上网的用户群体高达99.8%,而使用台式电脑、笔记本电脑上网的用户群体仅为34.4%和32.4%。PC设备要求用户具备打字 能力,使用门槛较手机高,而ChatGPT的语音功能仅需用户会说话即可,进一步提升了功能的渗透潜力。
新增语音功能或将重塑一对一辅导教育
ChatGPT实现与用户使用语音进行实时交互,或将重塑一对一辅导教育。语音多模态推出后,用户只需轻触按钮,用语音 提问问题,ChatGPT将自动生成回答,并将回答转换为语音播放给用户。这一交互方式更加自然和便捷,使得用户可以像 与人对话一样与AI进行交流,从而享受定制化、个性化的学习体验。 ChatGPT新增语音功能可以为用户提供一对一的口语交流,帮助用户进行语言学习。
视觉多模态API
1、多模态API:11月6日首届开发者大会上,OpenAI或将推出年度重磅更新——视觉多模态API。 2、多模态应用场景:据量子位公众号整理,在YC Alumni Reunion 2023上,奥特曼表示看好AI在医学、教育 上的赋能——AI医学顾问以及AI个性化一对一辅导。这两者社会价值都十分巨大。此外,OpenAI正在筹建 OpenAI学院,预计2023年底启动。它有可能是人人可访问的免费在线教学系统,老师能与GPT-5来互动,在课程 期间接收反馈和指导。GPT-4化身AI学习助手,既可以作为学生的虚拟导师,又可以作为教师的课件助手。
中小开发者:Python OpenAI package下载量
使用Python调用OpenAI的API需下载其package,在代码中导入该库,就可以调用ChatGPT接口。 OpenAI提供三种安装方式:Python库、Node.js库和Azure OpenAI库(OpenAI API 和 Azure OpenAI服务兼容)。 OpenAI Python package提供了从用Python语言编写的应用程序对OpenAI API的便捷访问。它包含一组预定义的 API资源 类,这些类可根据API响应动态初始化自身,使其与OpenAI API的各种版本兼容。 最新阶段:根据硅发布公众号,OpenAI正在疯狂地降低API价格,开发者们已经收到支票退款。
API利润率分析:不同折扣下的利润率
根据GPT-4揭秘内容,GPT-4 8k推理成本约为0.0049美元/1k token,约为GPT-3.5的3倍,GPT-3.5的推理成本约为0.0016 美元/1k token。据OpenAI官网,GPT-3.5 4k调用Output的面值价格为0.002美元/1k token; GPT-4 8k调用Output的面值 价格为0.06美元/1k token。由于API的实际价格可能会出现波动,在不同的实际折扣下,其利润率也不同。 若GPT-4 8k推理成本约为0.0049美元/1k token,API实际折扣为官网名义价格的七分之四时,GPT-4 8k和GPT-3.5 4k API 的销售利润率分别约85.71%、18.33%,成本利润率分别约为599.71%、22.45%,GPT-4的API利润率明显高于GPT-3.5。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)