OpenAI 成立于 2015 年 12 月,是所处于美国旧金山的一个人工智能研究实验室,由 非营利性的 OpenAI Inc.及其营利性的子公司 OpenAI LP 组成。
OpenAI 开展人工通用 智能(AGI)研究,为了确保 AI 能够造福全人类,OpenAI 提供了一个基于 AI 的开发 和研究框架,这也是其名字的来源(开放 AI 能力)。利用 OpenAI 的平台,客户可 以快速提升开发技能并获取 AI 领域的专业知识,这有助于安全有效的通用人工智能 (AGI)技术的发展。OpenAI 开发、维护和训练了一批可用于通用活动的 AI 模型, 包括写作、阅读、编程和图像处理等,OpenAI 始终相信 AGI 对我们日常生活的影响 将远远超过早期的 AI 技术。 马斯克、奥特曼和其他投资者于 2015 年 12 月宣布创建 OpenAI,并承诺向该项目投 入超过 10 亿美元。通过公布其专利和研究成果,OpenAI 将与其他组织和研究人员 “自由互动”。“OpenAI Gym”的公测版本于 2016 年 4 月 27 日发布,这是一个加强 OpenAI 研究领域的平台。2016 年 12 月 5 日,OpenAI 发布了“Universe”,这是一个 用于开发和测试 AI 的平台,智能能力可以覆盖全球的网站、游戏和其他应用程序。
2019 年 3 月 11 日,OpenAI 宣布从“非盈利(non-profit)”性质过度到“有限盈利 (capped for profit)”,利润上限为任何投资的 100 倍(创立了 OpenAI LP 公司)。 也是在 2019 年,微软向 OpenAI 投资了 10 亿美金,并获得了 OpenAI 技术的商业化 授权。从此,OpenAI 的一些技术开始出现在微软的产品和业务上。不过,OpenAI 与 微软的合作其实从 2016 年就开始,2016 年,微软的云服务 Azure 为 OpenAI 提供了 大规模实验的平台。Azure 彼时已经为他们提供了带有 InfiniBand 互连的 K80 GPU 的 算力资源,以优化深度学习的训练。2020 年 9 月 22 日,OpenAI 开始授权微软使用 他们的 GPT-3 模型,也是全球首个可以享受 GPT-3 能力的公司。 2020 年 6 月 11 日,OpenAI 发布了 OpenAI API,这也是 OpenAI 第一个商业化产品。 官方解释了,他们认为开发商业产品是确保 OpenAI 有足够资金继续投入 AI 研究的 有效手段。自此,OpenAI 也正是开始商业化运作。官方也解释了,使用 API 的方式 提供模型而不是开源模型也将降低模型的使用门槛,毕竟对于中小企业来说,部署 强大的 AI 模型所需要的成本可能更高。
2018 年 6 月 11 日,OpenAI 公布了一个在诸多语言处理任务上都取得了很好结果的 算法,即著名的 GPT,这也是该算法的第一个版本。GPT 是第一个将 transformer 与 无监督的预训练技术相结合,其取得的效果要好于当前的已知算法。这个算法算是 OpenAI 大语言模型的探索性的先驱,也使得后面出现了更强大的 GPT 系列。 同样是在 2018 年 6 月份,OpenAI 的 OpenAI Five 已经开始在 Dota2 游戏中击败业余 人类团队,并表示在未来2个月将与世界顶级玩家进行对战。OpenAI Five使用了256 个 P100 GPUs 和 128000 个 CPU 核,每天玩 180 年时长的游戏来训练模型。在随后的 几个月里 OpenAI Five 详情继续公布。在 8 月份的专业比赛中,OpenAI Five 输掉了 2 场与顶级选手的比赛,但是比赛的前 25-30 分钟内,OpenAI Five 的模型的有着十分 良好的表现。OpenAI Five 继续发展并在 2019 年 4 月 15 日宣布打败了当时的 Dota2 世界冠军。

2019 年 2 月 14 日,OpenA 官宣 GPT-2 模型。GPT-2 模型有 15 亿参数,基于 800 万 网页数据训练。2019 年 11 月 5 日,15 亿参数的完整版本的 GPT-2 预训练结果发 布。 2019 年 3 月 4 日,OpenAI 发布了一个用于强化学习代理的大规模多代理游戏环境: Neural MMO。该平台支持在一个持久的、开放的任务中的存在大量的、可变的代 理。 2019 年 4 月 25 日,OpenAI 公布了最新的研究成果:MuseNet,这是一个深度神经 网络,可以用 10 种不同的乐器生成 4 分钟的音乐作品,并且可以结合从乡村到莫扎 特到披头士的风格。这是 OpenAI 将生成模型从自然语言处理领域拓展到其它领域开 始。
2020 年 4 月 14 日,OpenAI 发布了 Microscope,这是一个用于分析神经网络内部特 征形成过程的可视化工具,也是 OpenAI 为了理解神经网络模型所作出的努力。 2020 年 5 月 28 日,OpenAI 正式公布了 GPT-3 相关的研究结果,其参数高达 1750 亿,这也是当时全球最大的预训练模型,同年 9 月,GPT-3 的商业化授权给了微软。2020 年 6 月 17 日,OpenAI 发布了 Image GPT 模型,将 GPT 的成功引入计算机视觉 领域。
2021 年 1 月 5 日,OpenAI 发布 CLIP,它能有效地从自然语言监督中学习视觉概念。 CLIP 可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称,类似于 GPT-2 和 GPT-3 的 "zero-shot "能力。 2021 年 1 月 5 日,OpenAI 发布了 DALL·E 模型,其为 120 亿个参数的 GPT 3 版本, 它被训练成使用文本-图像对的数据集,从文本描述中生成图像。 2021 年 8 月 10 日,OpenAI 发布了 Codex。OpenAI Codex 同样是 GPT 3 的后代;它 的训练数据既包含自然语言,也包含数十亿行公开的源代码,包括 GitHub 公共存储 库中的代码。OpenAI Codex 就是 Github Coplilot 背后的模型。
2022 年 1 月 27 日,OpenAI 发布了 InstructGPT。这是比 GPT 3 更好的遵循用户意图 的语言模型,同时也让它们更真实,且 less toxic。 2022 年 3 月 15 日,OpenAI 新版本的 GPT-3 和 Codex 发布,新增了编辑和插入新内 容的能力。 2022 年 4 月 6 日,DALL·E2 发布,其效果比第一个版本更加逼真,细节更加丰富且 解析度更高。 2022 年 6 月 23 日,OpenAI 通过视频预训练(Video PreTraining,VPT)在人类玩 Minecraft 的大量无标签视频数据集上训练了一个神经网络来玩 Minecraft,同时只使 用了少量的标签数据。通过微调,该模型可以学习制作钻石工具,这项任务通常需 要熟练的人类花费超过 20 分钟(24,000 个动作)。它使用了人类原生的按键和鼠标 运动界面,使其具有相当的通用性,并代表着向通用计算机使用代理迈出了一步。 2022 年 9 月 21 日,OpenAI 发布了 Whisper,这是一个语音识别预训练模型,结果 逼近人类水平,支持多种语言。