强化学习,多巴胺,神经影像

在喂食之前响铃,久而久之,狗会将铃声和食物联系起来,听到铃声时立即分泌唾液。通过食物(强化物 reinforcer),铃声和唾液分泌之间形成联系(association/contingent),且逐渐强化(reinforce),形成条件反射。

巴普洛夫的经典条件反射实验(classical conditioning),和斯金纳的一系列工具性条件反射实验(instrumental conditioning),提供了研究学习行为(learning behavior)的基本框架。强化学习(reinforcement learning)的框架也逐渐拓展到了其他领域,且相互启发补充:计算机(动态规划/控制论)、心理学与精神病学(成瘾/焦虑/抑郁)、神经与认知科学(帕金森/阿兹海默)、经济学(博弈论/行为经济学)等领域。

模型

TBC…

参考文献

Schultz, W., Dayan, P. & Montague, P. R. A Neural Substrate of Prediction and Reward. Science 275, 1593–1599 (1997).

Niv, Y., Duff, M. O. & Dayan, P. Dopamine, uncertainty and TD learning. Behav Brain Funct 1, 6 (2005).

Glimcher, P. W. Understanding dopamine and reinforcement learning: The dopamine reward prediction error hypothesis. Proc National Acad Sci 108, 15647–15654 (2011).