OpenAI发布会深度总结

最佳答案 匿名用户编辑于2025/01/08 14:27

OpenAI十二日发布会回顾, 模型迭代助力AI生产力工具人人可用。

1.Day1: 满血o1更快更强支持多模态,Pro会员无限制访问

OpenAI为期12天的发布会如期结束,新版模型、智能体应用为重要方向。12月5日,OpenAI CEO San Altman在X平台宣布,自12月6日太平洋时间上午10点开始, OpenAI将启动为期12天的活动。在每一个工作日将进行直播,展示一些新发布的内容或演示。

满血o1亮相Day1发布会,推理速度更强更快且支持多模态,o1实用性大大增强,未来在医学影像、工程设计等多领域具有应用前景。

复杂问题错误率减少34%,在多项基准测试中,满血o1性能直接暴涨,在数学、代码问题中,拿下了最优的成绩。相较于o1-preview,o1数学性能提升了近30%, 代码能力提升了27%;o1在GPQA Diamond基准测试中,表现完全超越了人类专家。

推理速度提升50%,根据问题复杂度更智能地思考。对于简单问题能快速回应,而在面对复杂的数学和编程问题时则会投入更多时间深度分析。

支持多模态,满血o1不仅能理解图像,还可以结合文本进行联合推理。发布会现场展示,在太空中收集太阳能,以供太空数据中心使用的一套系统草图让o1识别, o1准确了解太空需要散热片并计算出大小。

推出时间:发布当天,Plus和Team用户即可使用o1,企业版和教育版用户预计将在一周后获得访问权限,o1未来或支持Web浏览和文件上传工具以及上线API。

2.Day2: 强化微调,少量数例定制专业级模型

Day2面向企业机构和开发者推出强化微调(RFT),增强推理能力使得高质量数据可训练出专家助手,根据各自特定的需求来定制o1 mini模型。

强化微调 VS. 传统监督微调,更注重特定任务推理能力。强化微调是一种利用强化学习原理来进一步优化和定制预训练模型的方法,允许开发者通过使用数十到数 千个高质量的任务来定制模型,使其在特定任务上表现更佳。不同于传统监督微调(SFT),RFT专注于教AI学会推理与解决问题,而非简单地模仿输入数据。

用户仅需提供数据支持,OpenAI将承担所有技术工作。o1为通用模型,在特定任务推理表现仍需深度理解。用户需要准备一个数据集和一个评分系统,以评估模 型在训练和验证数据集上的表现。通过结合o1模型、微调技术和特定数据,用户可以创建一个性能超越原始o1模型的新版本--o1 mini。  强化微调预计在法律、保险、医疗保健、金融和工程等领域有积极结果,因为该模型在结果具有客观“正确”答案(大多数专家都会同意)的任务中表现出色。

推出时间:OpenAI的Alpha项目已开启,计划在2025年初正式面向公众推出RFT。

我们认为,强化微调可大幅降低定制化AI应用的开发门槛,AI应用有望进入从1-N的快速发展阶段。

3.Day3: Sora亮相推出,开箱即用的视频创造工具

Day3正式推出Sora Turbo,生成速度更快,丰富功能使之或成为开箱即用的视频创造工具。

Sora基础功能包括文生、图生视频;宽屏、竖屏或方形画面比;最高1080p分辨率;最长20秒时长;最多可支持同时生成4段视频片段供选择。

在视频处理流程上,Sora采用了分级处理机制。360p的预览版本生成速度很快,通常只需20秒左右,而1080p的完整版本则需要2-3分钟的处理时间。系统支持后 台处理,允许用户同时提交多个任务,并提供实时的处理进度反馈。

单独设计Sora网页,更好地帮助用户创作故事。打开主界面,用户可以查看和管理所有的视频生成内容,并且切换网格视图、列表视图,以及创建文件夹和收藏夹, 查看书签等。

推出时间:当地时间12月9日晚些时候,美国、以及大多数其他国家的用户,可以访问OpenAI官网体验Sora。它被包含在ChatGPT Plus、ChatGPT Pro的会员订 阅中,无需额外付费。其中,Plus能享受的视频生成权益包括:生成最多50个优先视频,视频分辨率最高达720p,视频时长为5秒;而Pro能享受的视频生成权益包 括生成最多500个优先视频(无限个relaxed视频),视频分辨率高达1080p,视频时长为20秒,可并发生成5个,还能下载无水印视频。

4.Day4: Canvas开启人机协作新模式

Day4向全体ChatGPT用户正式开放交互界面Canvas,ChatGPT升级为生产力工具,人机协同的文档写作、论文审稿、代码编辑成为可能。具体来看ChatGPT Canvas此次推出了三项重要更新:

Canvas 正式向所有用户开放,并与 OpenAI 的主要模型深度集成。编辑文字,左边是对话模式,右边是人类可直接编辑的文档;审稿,让 ChatGPT 更加直观地 帮忙审阅自己的文章,并给出批注建议。

支持用户直接在 Canvas 中运行 Python 代码,并直接查看文本或图形输出。集成WebAssembly的Python模拟器,用户将代码粘贴到Canvas后,ChatGPT自动 识别并切换到代码模式,支持实时执行、错误修复、调试演示等。

Canvas在单独的窗口中打开,可以整合到定制的GPT模型中。演示了装扮圣诞老人的GPTs,模拟圣诞老人回答问题,创作圣诞故事。

我们认为,ChatGPT Canvas功能,突破了ChatBot本身聊天对话的限制,通过工具和Agent手段,让基础模型获得更大的空间,正在朝着OpenAI的Karina Nguyen对AGI愿景逐步迈进:随人类喜好不断演变和自我调整的空白画布,彻底改变人机协同方式。

5.Day5: ChatGPT in Apple Intelligence,端侧AI划时代革命

Day5展示了与苹果的合作,将ChatGPT集成到iOS和Mac OS中,宣布苹果的iPhone、iPad、Mac可以原生使用ChatGPT,并且iPhone 16以上的手机可以使用 高级视觉功能。

首先是与Siri的协同。当Siri判断某个任务可能需要ChatGPT的协助时,它可以将任务移交给ChatGPT处理。例如,通过siri直接与ChatGPT对话,生成圣诞节party 方案、假日播放列表,并可添加表情emoji、添加播放列表封面等。

其次是写作工具的增强。用户现在可以使用ChatGPT从头开始撰写文档,还能进行文档细化和总结。

第三是iPhone 16的相机控制功能,它能够通过视觉智能让用户更深入地了解拍摄对象。通过ChatGPT控制iphone16的相机,通过长按相机控制按钮,用户可以搜 索或向chatgpt询问相机框架内的内容。

最后在工作中使用chatgpt,即将chatgpt嵌入mac os当中,可以几乎在任意应用程序调用siri。有三种调用方式:语音调用、点击右上角siri图标和双击命令键。

我们认为,OpenAI与苹果的合作,将使其成功地嵌入了全球重要的消费级硬件生态系统的核心位置,变为“苹果设备默认的AI大脑”,不仅有望带来用户数量的 增长(引流苹果手机用户至ChatGPT),而且对用户粘性增强起到重要作用。

6.Day6:实时交互时代,高级实时视频对话和屏幕共享

Day6正式推出了ChatGPT高级语音模式,已增加了屏幕共享和视觉识别能力,能够根据用户手机摄像头捕捉的画面或屏幕上显示的信息提供相应的辅助,支持50 多种语言的情感和语气的对话交流。

高级语音功能其原生的多模态交互,使得对话更加自然流畅。ChatGPT能够在仅通过语音描述的情况下记住摄像头中出现的人名。

共享手机摄像头视频,实时视频对话。直播中,开发人员展示了通过视频对话,ChatGPT逐步教会用户制作手冲咖啡的步骤,并对用户的制作过程做行评判。

共享手机屏幕,理解手机屏幕的内容并自然对话。用户可以向ChatGPT展示手机上的任何应用,无论是打开一条消息还是其他任何内容,用户都可以向ChatGPT寻 求回复建议,甚至可以识别出用户当前正在使用的具体应用。

此外,圣诞节期间,ChatGPT加入了santa圣诞老人语音模式。而且,当用户首次与圣诞老人对话时,可以尽情与圣诞老人畅谈,不受使用限制的影响。

推出时间:发布日起,最新的移动应用将逐步向所有Team用户及大部分Pro和Plus订阅者推出高级语音视觉功能。对于欧洲的Pro和Plus用户,OpenAI将尽快提供 这项服务。至于企业用户和教育用户,他们将在明年年初获得访问权限。 

我们认为,高级语音模式是OpenAI多模态应用先进水平的代表,通过与端侧适配,将加速生成式AI普及,并实现AI应用的真正落地。

Day7:Projects in ChatGPT,自定义的高效率协作平台

Day7发布Projects in ChatGPT,这将允许用户对聊天和数据进行分组,从而更轻松地根据用户需求定制ChatGPT,从一个单一的AI对话,演变成一个高效率的 协作平台。具体来看,Projects在ChatGPT实际的用途与功能:

个性化文件与指令上传,根据项目需求定制ChatGPT的所有对话:项目创建完成后,用户可以将各类文件上传至项目中,包括PDF文档、数据电子表格、图片和音 频文件等,整体兼容性非常强。例如,在“圣诞节交换礼物”示例项目中,上传规则、预算、活动细节等文件,并下达项目具体的指令,设置过后,这个Projects就 可以帮用户整理交换礼物的人、礼物等内容。

对话管理与搜索。项目创建完成后,组织和搜索过去的对话记录,对项目上传的文件也可快速查询,省去了每次会话开始时重复共享文档的繁琐步骤。

集成ChatGPT任何一项功能。该服务可以将ChatGPT的各种功能整合至一处,便于用户创建并管理各类项目,它不仅支持Canvas界面,还能通过ChatGPT Search 轻松接入互联网资源。例如,借助Canvas可以对个人网站模板进行修改。

推出时间:发布日起, ChatGPT Plus、Pro和Teams用户已经可以使用该功能,未来会扩展至免费用户。

我们认为,Projects可成为一个高效率协作平台,提高员工效率、解放员工生产力,帮助企业用户降本增效。