Nature Neuroscience：颠覆百年学习定律，练得越少反而学得越快-杭州脑海科技有限公司

关联学习是动物或人类将特定信号与特定结果联系起来的过程——就像狗学会铃声意味着开饭一样。一百多年来，科学家们普遍认为关联学习通过试错机制运作，而“练习越多，学习越好”的观念也一直深入人心。传统理论认为，大脑通过逐时刻计算预测误差——即预期奖励与实际奖励之间的差异——来指导学习。然而，这一经典假设近期受到了挑战。

2025年，加州大学旧金山分校的Vijay Mohan K. Namboodiri副教授（通讯作者）及其研究团队在Nature Neuroscience上发表了题为“Duration between rewards controls the rate of behavioral and dopaminergic learning”的研究。该研究揭示，大脑学习将特定信号与奖励关联的速度，取决于奖励之间的时间间隔，而非经历过的信号-奖励配对次数。这一发现挑战了延续一个世纪之久的经典学习理论，证明在固定时间段内的总学习量完全由时间决定，而非经验数量。

科学家们此前开发了一个数学模型，提出动物通过“向后回顾”来识别有意义结果的原因。在这个框架中，大脑并非试图预测信号会带来什么后果，而是从奖励出发反向推断是什么信号预测了它。这一模型被称为ANCCR（调整净因果关联），即回溯性学习模型。在验证这一想法时，研究人员注意到：当奖励之间的时间间隔延长时，动物的学习速度反而成比例加快。

“我们在发表那篇论文后不久就意识到，这个模型预测：当试验间隔拉长时，动物学习信号-奖励关联的速度会成比例加快。这意味着在固定时间段内，总学习量与所经历的信号-奖励配对次数无关。”研究通讯作者Namboodiri解释道。

这一观察促使研究人员检验是否存在一个严格的数学规则来支配学习速率。他们设计了一系列实验，同时测量小鼠的物理行为和大脑化学变化

研究团队使用101只成年雄性和雌性小鼠进行了经典条件反射实验。口渴的小鼠在听到一个短暂的声音后，会得到糖水奖励。小鼠被固定在一个位置，确保测试条件统一。随着小鼠学会联想，它们一听到声音就会开始舔水嘴，期待糖水的到来。

为了测量大脑活动，研究人员采用光纤光度测量技术，将一种特殊荧光传感器注射到伏隔核核心区——一个与奖励处理密切相关的脑区。当大脑释放多巴胺时，传感器会发出荧光，从而实时追踪大脑处理声音和奖励的时机。

研究人员根据试验间隔将小鼠分成不同组别：一些小鼠每60秒经历一次声音和奖励，而另一些则需要等待600秒。

结果令人震惊：等待600秒的小鼠在约十分之一的试验次数内就学会了联想。这意味着每次试验的学习速率随奖励间隔时间的延长而成正比例增加。因此，尽管两组小鼠经历的声音-奖励配对总数相差十倍，但它们学会联想所用的总时间完全相同。

“研究的主要发现——每段经历的学习量与奖励间隔时间成比例——非常令人惊讶，”Namboodiri告诉PsyPost。“虽然这是我们之前提出的回溯性学习模型的预测，但我们原本预期最初的实验会证伪这一预测。”

多巴胺测量结果与行为观察完全吻合。在奖励间隔较长的小鼠中，大脑在更少的经历后就开始仅凭声音释放多巴胺——这种多巴胺反应甚至在老鼠开始舔水嘴之前就出现了。

“我们追踪了多巴胺对信号的反应在学习过程中的演变，使用的正是我们在行为学实验中相同的时序操控，”Namboodiri说。“我们发现多巴胺信号遵循同样的学习规则：多巴胺信号反应的变化速率和幅度取决于奖励之间的平均时间，而非信号-奖励配对的原始次数。行为与多巴胺活动的这种平行关系表明，大脑的奖励系统实现了一种基于时间的学习规则，揭示了动物从奖励中学习的简单生物学基础。”

为确保结果不受其他因素影响，研究人员进行了多项对照实验。他们测试了是否因为老鼠每天获得的奖励更少、糖水显得更新奇而导致学习更快；也测试了在测试室中停留更长时间（但不听到声音）是否起作用。即使控制了这些变量，比例缩放规则依然成立。

研究团队还测试了厌恶学习场景——将声音与轻微足部电击配对，同样观察到了比例缩放规则。电击间隔时间越长，老鼠学会对声音产生冻结反应所需的试验次数越少。

图1 通过十倍的试验间隔，仅需十分之一的体验次数即可实现行为学习。

在另一个变体实验中，研究人员测试了部分强化：每60秒播放一次声音，但只有10%到50%的几率给予糖水。由于实际奖励在时间上间隔更远，老鼠在获得奖励的试验次数上，学习速度比每次都有奖励的老鼠快得多。

理论意义：传统学习理论假设大脑逐时刻计算预测误差——动物预期奖励与实际奖励之间的差异。研究人员将这些旧模型与他们的新框架（仅在收到奖励时向后回顾计算关联）进行了比较。

在计算机模拟中，传统模型无法解释为什么学习速率会与奖励间隔时间成比例缩放，而新提出的回溯性模型天然地预测出了这种精确的比例关系，为实验结果提供了强有力的理论支持。

“我们研究的关键启示是：真正驱动基于奖励的学习的，是奖励之间流逝的时间，而不是动物经历的信号-奖励配对数，” Namboodiri总结道。“简单来说，当奖励在时间上间隔更远时，每一次奖励带来的学习量会成比例增加。因此，如果奖励间隔扩大到十倍，每一次奖励带来的学习量也大约是原来的十倍。”

“结果是，当你在固定时间段内观察时，尽管信号-奖励经历的数量相差巨大（超过20倍），总学习量却完全相同。这种此前未知的学习规则表明，经验的总数并不是学习的关键决定因素，这对神经科学和强化学习领域的一些长期假设提出了挑战。虽然学界此前知道拉长间隔会提高每次配对的学习速率，但人们仍然认为最终的学习水平取决于配对的总数。我们的实验表明，总学习量实际上由时间决定，而非次数。”

与“间隔效应”的区别：读者可能会将这些发现与众所周知的“间隔效应”混淆。间隔效应是一个广泛的教育概念，意味着学习间隔休息比突击学习效果更好。但这项研究揭示的内容比“休息有益”更为具体。

“我们想强调，我们的结果不仅仅是间隔效应或其生物学基础的重新表述，而是我们发现了一种此前未知的学习规则，”Namboodiri告诉PsyPost。“间隔效应可以概括为‘间隔经验=更好的学习’，这意味着当经验在时间上更紧凑时，它们对学习的贡献会递减。然而，我们发现学习速率与奖励间隔时间成比例这一结果，需要对上述观点进行根本性转变，因为它意味着（正如我们所证明的）在固定时间段内，信号-奖励经历的次数对总学习量没有影响。”

研究的局限性在于，这一规则主要在简单条件反射设置中用小鼠进行测试，且在极端间隔（如小鼠等待整整一小时）时，比例缩放规则会失效。

未来研究将探索大脑究竟在何处计算这个时间间隔。科学家们还计划研究这一规则是否适用于药物奖励，这可能为成瘾和习惯形成提供洞见。例如，尼古丁贴片提供持续的尼古丁流，可能会破坏大脑将吸烟行为与奖励关联的过程，从而减弱烟瘾。将这些时序原理应用于人工智能系统，也可能帮助机器从更少的数据中更快地学习。当前系统学习缓慢，是因为它们需要经过数十亿次交互后才能进行微小的改进。借鉴这些新发现的生物学原理的模型，有可能加速人工学习。

参考文献

Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci (2026). https://doi.org/10.1038/s41593-026-02206-2

资讯来源

https://www.psypost.org/neuroscientists-just-upended-our-understanding-of-pavlovian-learning/

编译：脑海科技

Nature Neuroscience：颠覆百年学习定律，练得越少反而学得越快

产品中心

官网动态

研究动态

关于我们

服务热线

客服邮箱