可控性与条件反射

贝叶斯框架下,大脑综合考虑巴普洛夫条件模型和工具条件模型,并通过强化学习实时更新二者的权重。

背景:经典条件反应下,行为完全无法控制结果。工具条件反应下,行为完全控制结果。然而现实中有很多介于二者之间的情况,即行为可以部分控制结果。也因此带来很多不适行为。举例如下。

  1. 刚出生的小鸡学不会远离食物盒才能触发机关打开食物盒。
  2. 得到奖励之前,偶然做出的行为,即使和是否得到奖励毫无关系,鸽子依然会开始不停重复该行为(斯金纳,迷信的鸽子实验)。
  3. 相对于什么都不做得到奖励,人类觉得做事得到奖励更容易(也许解释了延迟满足很难,总是手痒);同样,相对于做事逃避惩罚,人类觉得不做事逃避惩罚更容易(或许解释了拖延症)。

实验:Simulation仿真;Go/NoGo实验。

参考文献

Dorfman, Hayley M., and Samuel J. Gershman. “Controllability governs the balance between Pavlovian and instrumental action selection.“Nature communications10.1 (2019): 1-8.