心理揣测的计算模型分为几类？ - 问答集锦

最佳答案由匿名用户编辑于2023/10/30 13:26

在心理揣测计算建模方面，大致可以分为基于贝叶斯的心理揣测模型、基于深度学习的心理揣测模型、包含连接主义建模及认知架构设计等其他方法的心理揣测模型、以及基于脑启发的心理揣测模型。

1.基于贝叶斯的心理揣测模型

基于贝叶斯的心理揣测模型是最具代表性的一类心理揣测模型，麻省理工学院的 Goodman 等人[39]建立了两个贝叶斯模型，这两个模型都支持预测和解释。简单模型中 Sally 的信念只与玩具的位置有关，而复杂模型中 Sally 的信念不仅与玩具位置有关还与她对玩具的视觉感知相关，即 Sally 是否能够看到玩具移动。这一区别使得简单模型无法通过错误信念任务，而复杂模型会成功。Bayesian 推理通常是通过逆强化学习（Inverse Reinforcement Learning，IRL）进行的。正如 Jara-Ettinger[40]所描述的那样，“通过模拟具有假设信念和欲望的 RL 模型来预测其他人的行动，而通过反演该模型来实现心理状态推断”。类似于这种想法，麻省理工学院的 Baker 等人[41]提出了一个贝叶斯心理揣测模型(Bayesian Theory of Mind，BToM)，这个工作将 belief 建模为智能体在一时刻为某一状态的概率，以此为基础构建的动态贝叶斯网络(dynamic Bayes net，DBN)可以预测环境中智能体的目标。 Baker 的工作将心理揣测中抽象的名词，例如信念（belief）、想法（desire）进行符号化，使得模型的可解释性更强。

除此之外，Baker 将 IRL 的思想与部分可观察马尔可夫决策过程 (POMDPs)结合用于建模心理揣测模型，被揣测对象在环境中的行动是可观察的，并以此为后验来对被揣测对象的信念和目标进行逆向推断。该模型可以根据智能体在空间中的移动方式，来推断它的信念、期望和知觉。在两个心理学实验中，该模型获得了和人类被试相似的实验结果。实验结果表明，贝叶斯心理揣测模型可以根据他人的行为揣测他人的信念、期望和知觉，以及用他人的想法和行为揣测环境的状态。在这种基于概率（贝叶斯）方法建模心理揣测的过程中，逐渐衍生对心理揣测进行递归建模的思路[42-44]。以两个人的场景为例，递归推理可以通过下图描述：拥有零阶心理揣测能力的智能体可以根据对另一个人的行为观测生成一个概率分布以作为它对另一个智能体信念推断的依据。拥有一阶心理揣测（图 4-4）能力的智能体同时具有推测他人零阶信念和一阶信念的能力。一阶信念是指智能体认为另一个人如何推断自己的概率分布。然后拥有一阶心理揣测的智能体会将其一阶预测与零阶信念进行集成，并将该集成信念用于最终决策。预测对代理行为的影响程度由它的一阶置信度决定，如果预测正确则增加置信度，反之则降低。这样的贝叶斯心理揣测模型普遍需要很高的计算成本来形成和维持信念。因此，模型通常针对特定的场景进行优化，比如石头剪刀布、或者一些假设性较强的特定任务中。由于心理揣测是智能体思考的过程，因此心理揣测的实验会伴随着智能体的决策，而要单一研究心理揣测模型就需要保证智能体的决策是完全正确的。以上的这些研究确实在心理揣测建模方面取得了一些进展，但是对于解决复杂的或者实际应用问题仍过于理想化。

麻省理工学院的 Lee 等人[45]定义了一个用于人机交互的非语言交流的双重计算框架。他们使用贝叶斯心理揣测方法来模拟讲故事时的交互作用。讲述者利用声音线索来影响和推断听者的注意状态，将其作为一个部分可观测马尔可夫决策规划问题进行计算。听者通过自己的反应传达注意力，将其作为一个动态贝叶斯网络计算。通过人机交互实验证明模型在注意力识别和传达的有效性。爱丁堡大学的 Patacchiola 和 Cangelosi[46]提出了一种基于信任和心理揣测的发展认知架构，该架构受心理和生物学的启发，由演员-评论家框架和贝叶斯网络组成，这些模块分别对应于大脑中用于心理揣测的脑区。最后，他们用 iCub 仿人机器人进行了两个心理学实验，结果与儿童的实验数据一致，有助于揭示儿童和机器人基于信任的学习机制。

2.基于深度学习的心理揣测模型

受益于深度学习的飞速发展，基于深度学习的心理揣测模型也取得了很大进展。Google DeepMInd 团队的 Rabinowitz 等人[47]设计了一个 ToM-net 神经网络模型实现通过元学习对其他智能体的建模，他们的网络包含了建模被观测者特点、内心状态的模块，并通过结合这两部分的输出以及被观测者当前的状态来对被观测者进行揣测。他们构建了一个能够收集智能体行为轨迹的观察者，其目标是预测其他智能体的未来行为。他们将提出的 ToM-net 模型应用于简单的网格环境中，结果表明观察者可以有效地为智能体建模并通过 Sally-Anne 测试。而观察者自身不需要执行任何动作。

基于深度学习的心理揣测模型受益于深度学习的飞速发展，基于深度学习的心理揣测模型也取得了很大进展。Google DeepMInd 团队的 Rabinowitz 等人[47]设计了一个 ToM-net 神经网络模型实现通过元学习对其他智能体的建模，他们的网络包含了建模被观测者特点、内心状态的模块，并通过结合这两部分的输出以及被观测者当前的状态来对被观测者进行揣测。他们构建了一个能够收集智能体行为轨迹的观察者，其目标是预测其他智能体的未来行为。他们将提出的 ToM-net 模型应用于简单的网格环境中，结果表明观察者可以有效地为智能体建模并通过 Sally-Anne 测试。而观察者自身不需要执行任何动作。

3.基于脑启发的心理揣测模型

与认知心理学和脑科学关系更紧密的是脑启发的心理揣测模型。在这个方向上，中科院自动化所曾毅团队取得了一系列研究进展。 Zeng 等人[8]借鉴心理揣测的多尺度神经可塑性机理，即相关脑区、脑区功能及神经环路，提出类脑心理揣测脉冲神经网络模型。该模型实现了机器人的自我经验学习，并能够利用自我经验实现对他人信念及行为的揣测，使机器人可以通过错误信念任务，获得初步的心理揣测能力。该模型探索了自我经验、相关脑区和脑区间连接的成熟度，特别是抑制控制机制对心理揣测能力的影响，有助于从计算角度揭示心理揣测的神经机制。 Zhao 等人[9]在此研究的基础上，提出了多脑区协同的心理揣测脉冲神经网络模型，该模型由四个部分组成:视角采集模块(模拟 TPJ 和额下回脑区功能)、策略推断模块(模拟 vmPFC 脑区功能)、动作预测模块(模拟dlPFC脑区功能)和状态评估模块(模拟ACC脑区功能)，模型采用了模拟生物神经元的 LIF 神经元、网络的学习过程采用了与突触可塑性相关的 R-STDP 方法、网络的连接是参考心理揣测各个脑区之间连接建立的。因此每个子模块的输出都是可解释的，训练过程也是受脑启发的。该模型可以区分并对不同类型的智能体进行揣测，并且基于揣测来预判他人未来的安全状态。最后将该模型应用到安全风险任务中，实验证明，具备心理揣测能力的智能体可以帮助他人避免安全风险。

心理揣测的心理状态往往是抽象的，难以直接观测和表征。因此， Zhao 等人[10]不显示地构建对他人的心理状态而是采用网络隐层表征他人的心理状态，进而预测他人行为。该方法中每一个智能体都有自己的决策网络以及心理揣测网络。心理揣测网络的输入是对环境的观测以及对他人行为的观测，隐藏层编码了智能体对他人内心状态的归因，输出层表征了对他人行为的预测。心理揣测的结果可以丰富智能体对当前状态的表征从而帮助提升多智能体合作的性能和效率，并提高智能体在竞争中的竞争力。同时模型还借鉴大脑中 TPJ 模块可以区分自己和他人的功能，包含了存储自身经验和对他人观测的模块，以便模拟智能体使用不同信息进行决策。实验结果表明，在自身经验的帮助下智能体更容易对陌生的智能体产生准确的判断；而随着智能体之间交互变多，智能体通过对方的历史信息来推测对方会更有效率。格拉斯哥大学的 Roth 等人[50]认为 Zeng 等人[8]提出的脑启发的心理揣测模型同认知双重过程方法一致，区分了更自动、快速、更少受控制的过程和更刻意、更缓慢和有意识的过程，并与区分内隐和外显的心理揣测模型一致。因此，借鉴类脑心理揣测模型[8]，特别是该模型提出的四条通路：自我经验学习通路、动机理解通路、自我信念推理通路和他人信念推理通路，Roth 等人提出了一项新的心理学实验范式，并在 60 名人类被试上进行了该实验，实验结果进一步证明了脑启发心理揣测模型的有效性和合理性，有助于进一步揭示心理揣测的神经机制。两项工作将人工智能和心理学在心理揣测方面的研究紧密结合在了一起，在计算建模和心理学实验间形成了良好互动。

4基于其他方法的心理揣测模型

另外还有一些从连接主义建模、认知架构设计等方面构建心理揣测模型的研究。麦吉尔大学的 Berthiaume 等人[51]提出了一个连接主义模型来模拟错误信念任务。通过增加隐藏层神经元来提高模型的计算能力，该模型可以成功模拟错误信念任务由失败到成功这一转变，他们认为，这种转变的根源不在于对信念的理解，而是由抑制自身信念处理资源的增加导致的。图卢兹大学的 Milliez 等人[52]提出了一个时空推理系统 SPARK，借助该系统，机器人可以以更加自然的方式实现有效地沟通和互动。该系统可以使机器人通过 Sally-Anne 测试，并在对话消歧方面表现良好。西英格兰大学的 Winfield[53]基于内部模拟模型提出了一个心理揣测模型，并部署在 NAO 机器人上，该模型可以在内部模拟机器人下一个可能的动作，从而预测这些动作对自己和其他个体可能产生的后果，对增强机器人的社会交互能力十分重要。西英格兰大学的 Bremner 等人[54]提出了一个信念-期望-意图模型，其逻辑结构通过记录推理循环和形式化的验证方法促进模型的透明性，通过一系列的实验证明该模型能够做出符合阿西莫夫机器人三定律的正确决策。加州理工学院的 Choudhury 等人[55]对比了无模型、基于黑箱模型和基于心理揣测的人机交互方法，发现基于心理揣测的人机交互方法是在学习过程中唯一不需要人机交互数据，并可以根据观察到的人-人交互数据进行训练的方法，相较于另外两个方法，基于心理揣测的方法所需的数据更少，且更加鲁棒。

参考报告

心智计算，构建脑与心智启发的人工智能.pdf
- 查看报告