我来探讨一下GPT-4交互性的两个维度:工具使用和具身交互。
尽管GPT-4在各种任务上的表现令人印象深刻,但它仍然受到各种有据可查的语言模型的 弱点的影响。这些弱点包括(但不限于)缺乏对当前世界的了解,难以进行符号运算(如数学),以及无法 执行代码。例如GPT-4使用过时的信息来回答第一个问题,并且未能对第二和第三个问题进 行适当的操作。ChatGPT拒绝回答第一个问题,并且在其他问题上也失败了。

然而,GPT-4能够使用外部工具,如搜索引擎或API来克服这些(和其他)限制。例如,我 们展示了一个简单的提示,让GPT-4访问搜索引擎和其他功能。在执行过程中,当这些函数之一被调用时, 我们会暂停生成,调用相应的函数,将结果粘贴回提示符中,然后继续生成。在这些简单的例子中,GPT-4能够在极少的指导和没有演示的情况下使用这些工具,然后适当地利用输出结果(注 意第二个搜索结果包含潜在的冲突信息,而GPT-4仍然能够推断出正确的答案)。
虽然工具的使用是交互性的一个重要方面,但现实世界中的大多数交互都不是通过API发生的。例如,人类 能够使用自然语言与其他代理进行交流,探索和操纵他们的环境,并从他们行动的后果中学习。这种体现式 的互动要求代理理解背景、目标、行动和每轮互动的结果,并相应地进行调整。虽然GPT-4显然不是具身的 ,但我们探索它是否可以通过使用自然语言作为各种模拟或真实世界环境的文本界面来进行具身的互动。
2.1 热身运动:地图导航
我们准备了一张房子的 "地图",并要求GPT-4通过互动查询来探索它。然后我们要求它用语言 和可视化的方式来描述它,并将其与真实的地图进行比较。虽然GPT-4没有探索整个房子,但它准确地 描述了它所探索的东西,尽管它的所有互动都是通过这个有限的文本界面进行的。
2.2 基于文本的游戏
基于文本的游戏对语言模型来说是一个自然的、具有挑战性的领域,因为它们需要理解自然语言,推理游戏 状态,并生成有效的命令。基于文本的游戏是一种交互式小说,其中一个代理通过自然语言描述和命令与环 境互动。代理人必须通过探索环境和操纵物体来完成一个给定的任务,如寻找宝藏或逃离地牢。我们首先测 试GPT-4是否能在基于文本的游戏中探索环境以执行给定任务。在这个和下一个实验中,我们使用 TextWorld [CKY +18],一个用于生成和玩基于文本的游戏的框架,来创建两个具有不同给定任务的游戏。
探索环境。第一个游戏发生在一个有许多房间的房子里,目标是通过在不同房间之间的导航找到并解锁 某个箱子。这个游戏相对简单,因为它不涉及任何库存管理、手工制作或战斗。环境由一段文字描述, 玩家可以输入 "向北走"、"检查沙发 "或 "打开箱子 "等命令。箱子通常离起点有几个房间,因此,解决游戏 需要探索在不迷路的情况下,可以在环境中找到自己的位置。
我们把Textworld的初始文本作为初始提示,并把帮助作为第一个命令发布。之后,GPT-4就像一个普通 玩家一样玩游戏。在没有任何额外帮助的情况下,它在30个动作中完成了游戏,并且有效地浏览了环境,没 有在房间中循环往复。从质量上看,GPT-4 以一种非常保守的方式解决了游戏,它检查并拾取了每个房间里的每一个物体,而不管它与游戏目标是否相 关。然而,与此相反,text-davinci-003对环境反馈完全没有反应,反复发出同样的命令。
对反馈作出反应。 在这里,GPT-4玩了一个游戏,任务是根据一本食谱准备一份两料五步的食物。这个游 戏比上一个游戏更具挑战性,因为玩家(GPT-4)必须自己从环境反应中找出关键命令(这些命令没有在帮 助中列出),如切菜、使用正确的餐具和打开电器。 GPT-4在玩游戏时使用试错法,但它也会适应环境,在不同的动作之间进行归纳。
2.3 真实世界的问题
GPT-4被赋予了两个真实世界的问题需要解决,并被赋予了一个人类作为伙伴(即一 个非常灵活的代理,限制非常少,也可以用自然语言回应)来与环境互动。这两个问题都是本文作者所面临 的真实问题,他们对GPT-4的反应是这样的,即追踪他们所面临的情况。对于这两个问题,GPT-4都能够确 定人类需要采取的行动,以解决这个问题。在第一个例子中,GPT-4引导人类找到并修复了一个漏水点,并 推荐了人类采取的确切行动(在更换了在第二个例子中,提交人没有打电话给燃气公司把服务从老用户那里转过来,因此燃气被关闭了。)在第二 个例子中,作者没有给燃气公司打电话,把服务从老用户那里转移过来,因此燃气被关闭了。在这种情况下 ,GPT-4能够迅速到达问题的源头(实际是人花了很长时间检查热水器的指示灯),并提出貌似合理的解决 方案。然而,它无法诊断出根本原因,直到人类自己有了检查炉头的想法。