数据导入
西门子、飞利浦、联影、GE…发布:2025-12-25 浏览:7 次
简要总结
该研究基于自然观影与回忆任务,结合fMRI、眼动追踪与语言建模,发现注视再现与神经再激活在事件特异性、个体一致性和跨任务泛化性上高度一致,表明二者通过共同机制支持记忆提取;此外,注视行为与大脑活动在看片与回忆中显著耦合,提示视觉采样机制同样驱动记忆再现,为理解记忆与行为关系提供了新视角。
摘要
在回忆过往事件时, gaze 的轨迹与神经活动的模式会重新呈现,与最初经历时的状态高度相似。我们假设,这两种现象——gaze 复现与神经再激活——通过某一共同过程相互关联,该过程构成了记忆提取时过往经验得以“重演”的基础。本研究以观看并回忆一部叙事电影为范式,借助功能磁共振成像、基于深度学习的 gaze 预测以及对口头回忆的语言建模,对这一假设进行了检验。核心预测得到验证:gaze行为遵循与神经活动相同的规律——具有事件特异性、在个体间稳定,且能在“观看”与“回忆”两种任务间泛化;此外,依赖 gaze 的脑活动在两项任务中高度重叠。综上,这些结果表明,记忆提取所调用的机制与自然视觉中引导我们目光的机制同源,折射出神经系统功能组织的共同约束;同时,也强调了在理解“ remembering ”时,必须将行为复现与神经复现一并考量。
1 引言
眼球运动决定了我们获取外界视觉信息的全部内容、空间布局与相对时间顺序;与此同时,视觉推断引导视线朝向行为相关的线索(例如通过序列采样识别人脸)。因此,注视行为是视觉的基本组分,其统计特性必然塑造所有视觉响应回路的脑活动(如注视转移驱动活动波动)。即便通常与记忆相关的结构(如海马)亦表现出视网膜拓扑活动调制以及眼动信号,提示 gaze 与神经活动的关联超出了传统所谓视觉系统的边界。重要的是,主动视觉中神经回路的参与方式可能同样制约其在其他任务(如回忆)中的作用,因为回路的活动模式与其解剖结构密不可分,而该结构反映了发育与进化尺度上的长期参与。由于这种参与与 gaze 行为固有耦合,广泛神经回路的功能组织应体现了自然视觉中个体移动与采样环境的规律。因此,适用于主动视觉的诸多原则应可推广至记忆提取与情景模拟(即在缺乏物理刺激时对过去、未来或虚构事件的现象体验)。这些原则包括:序列性——项目被依次采样或提取,回忆事件随时间展开;以及眼动相关机制的参与。初步证据显示,行为与神经层面均存在此类共性。行为上,眼动与瞳孔大小已被证明可在使用简单静态刺激时反映表象、回忆与再认。特别地,“gaze 复现”指图像观看时的注视模式在提取阶段被重新呈现,且被认为在提取中发挥功能作用,因为干扰该过程会削弱回忆与情景模拟。然而,目前尚不清楚 gaze 复现是否及如何扩展到更复杂、持续更长的日常体验回忆。神经层面,提取时观察到的活动模式常与观看时相似,即“神经再激活”。多数理论认为,重演与特定体验相关的神经模式可复现该体验或其部分。使用电影等动态刺激的研究表明,神经再激活对回忆的单个事件特异,且在回忆同一事件的被试间一致。近年研究日益关注 gaze 复现与神经再激活的关联,但二者关系仍远未阐明。该研究假设,gaze 复现与神经再激活通过共同过程联结,该过程支撑记忆提取中对过往体验的重演。基于主动视觉的工作,该研究通过将 gaze 模式、脑活动与口头回忆直接关联,检验上述假设。
为了在自然情境下探查注视复现(gaze reinstatement)与神经再激活(neural reactivation)之间的关系,该研究将基于摄像头的眼动追踪与基于磁共振的眼动追踪整合进“Sherlock观影数据集”——该数据集已被广泛用于探讨神经再激活及其在回忆中的作用。在这些数据中,人类志愿者观看了一段电影,随后进行回忆;同时记录了口头回忆的音频,并通过功能磁共振成像(functional magnetic resonance imaging, fMRI)监测脑活动。通过将此前未公开的扫描仪内眼动数据、基于磁共振的眼动数据以及新采集的桌面摄像头数据整合,该研究得以检验以往无法触及的多个基于行为的预测。
首先,如果注视复现与神经再激活确实通过一个共同过程相联系,那么预计这两种现象不仅会在这些数据中同时出现,还应共享事件特异性(event-specificity)和跨被试稳健性等关键特征(预测1)。其次,注视与神经活动的模式应在同一数据集的观看与回忆阶段之间泛化(预测2)。第三,眼动应在观看与回忆阶段与脑活动相关,且注视依赖的活动在这两个任务之间重叠(预测3)。
以下,该研究以五个步骤呈现研究设计与检验结果:
1)首先描述电影观看与回忆任务,以及注视行为、神经活动和口头回忆的实证测量指标。
2)接着通过语言模型确认,被试的口头回忆遵循电影的事件结构(即叙事事件的内容与顺序),从而确保两个数据集均适合进行事件特异性分析。
3)根据预测1,随后展示观影期间的注视模式确实具有事件特异性,并且在被试间高度一致,这一特异性主要由电影的视觉内容解释。
4)接着,该研究使用隐马尔可夫模型(Hidden Markov Model, HMM)证明,这种事件特异性的注视行为反映在眼部多体素MRI模式中,并且这些眼部体素模式在观看与回忆之间泛化,支持预测2。
5)最后,该研究通过基于深度学习的注视预测,将眼部体素模式与脑活动直接关联。与预测3一致,该研究发现了广泛的注视依赖的脑活动调制,这些调制在观看与回忆之间显著重叠。该研究在现有注视复现与神经再激活理论背景下讨论这些结果,并提出一个简洁的理论框架以阐明二者之间的关系。
该研究包含两个独立被试的数据集:一个是在MRI扫描仪内采集的(数据集1,即原始“Sherlock观影数据集”,n = 16),另一个是在桌面环境中采集的(数据集2,n = 21)。所有被试观看并口头回忆了BBC剧集《神探夏洛克》首集《粉色研究》的前48分钟(分为两个采集段,图1A)。被试被指示尽可能详细地、按时间顺序描述电影内容,时间不限。在两个数据集中,均在电影观看期间采集了眼动数据,并录制了随后的口头回忆音频。此外,数据集1还包括了fMRI数据,已有研究在该数据集上报道了稳健的神经再激活。更多细节见方法部分与数据概览(图1B)。
点击下方链接了解平台更多算法:(1)基于Fixel分析太难?脑海科技多模态脑影像云平台一键解锁白质纤维束全分析流程!
(15)捕获大脑的“高光时刻”!高振幅共波动分析揭秘全脑协同爆发瞬间:脑海科技脑影像云平台,秒级定位“关键帧”
为了确保电影被准确且足够详细地回忆以进行事件特异性分析,该研究使用语言模型分析了被试的口头回忆。该分析旨在确认新采集的数据集2中存在事件特异性回忆,并在数据集1中复制先前发现,同时检验事件间语义内容与注视行为之间可能存在的联系(图2)。为此,该研究首先将音频文件转录为文本,然后手工将其划分为48个叙事事件。这些事件此前由一名独立编码者定义,反映了叙事中的关键且可分离的要素。对于每个被试回忆的叙事事件,该研究使用sBERT语言模型生成其嵌入(embeddings),这些嵌入是句子在高维空间中的数值表示,可用于比较句子含义。接着,这些嵌入通过皮尔逊相关与所有其他被试回忆的事件进行比较。该研究发现,在两个数据集中,被回忆事件的顺序与持续时间均与电影中的实际事件高度匹配(图1C),尽管回忆在时间上有所压缩。此外,该研究观察到电影的语义结构(即所有事件之间句子嵌入的成对相似性)在数据集间显著复现,并且在被试间基本一致。通过进一步将这些回忆结果与一名独立被试创建的“金标准”电影描述进行比较,该研究发现事件不仅在相对顺序上被高度准确地回忆,而且在语义内容上也高度准确。此外,尽管以往研究表明同一刺激的解释可能在个体间存在差异,但该研究的分析表明,被试对电影的理解足够相似,可以支持跨被试比较。
在确认数据适合用于研究注视复现与神经再激活等事件特异性过程后,该研究接下来聚焦于两个数据集中的眼动追踪数据。这些数据通过红外摄像头眼动仪采集,并在分析前进行了去噪处理(即剔除异常值、去趋势和平滑,详见方法部分)。请注意,在数据集1中,眼动数据是在fMRI扫描期间同时采集的。对于每个事件,该研究计算了观影期间的平均扫视频率(saccade rate)、幅度(amplitude)和持续时间(duration),以及注视图(gaze map),即该事件所有帧中注视位置的二维直方图(图1D)。这些注视图随后通过皮尔逊相关在事件间进行比较,以获得注视图相似性矩阵,其结构与使用语言模型对口头回忆得到的矩阵类似(图1D)。如果注视复现与神经再激活相关,那么数据中的注视模式应在被试间一致,并对叙事事件具有特异性,正如神经活动那样(预测1)。对眼动追踪时间序列的可视化确实揭示了被试间高度一致性,无论是在扫描仪内还是扫描仪外环境中(图2A)。该研究进一步通过在每个数据集内对被试间时间序列进行相关分析来确认这种一致性,结果在整个数据集中均表现出稳健的秩相关(数据集1:rho = 0.53,均值标准误(SEM)= 0.009;数据集2:rho = 0.63,SEM = 0.005;均为成对比较的平均rho值及SEM)。这些观察到的秩相关显著偏离了通过将被试时间序列相互随机错位(n = 2000次随机移位)计算得到的零分布(数据集1:Z = 9.34,SEM = 0.20;数据集2:Z = 11.8,SEM = 0.10),详见方法部分。此外,该研究观察到叙事事件间扫视参数存在显著变异,且这种变异在两个数据集间共享(图2B,两个数据集间扫视频率的秩相关:rho = 0.75,p = 8.3 × 10⁻⁹;幅度:rho = 0.74,p = 1.2 × 10⁻⁸;持续时间:rho = 0.33,p = 0.022)。换言之,在一个数据集中扫视频率高的事件,在另一个数据集中也表现出较高的扫视频率。最后,事件间成对相关的热图在两个数据集中表现出相似的模式(图2C)。尽管这些结果表明观影期间的注视模式具有事件特异性且在跨被试间稳健,从而支持了预测1,但其模式似乎与口头回忆的语义相似性不同(例如,基于图1D与图2C中矩阵的比较,两者仅弱相关:r = 0.12,p = 7.4 × 10⁻⁵)。这一点值得注意,因为事件最初是基于电影的叙事要素定义的。事实上,平均扫视频率、幅度和持续时间与事件的可回忆性(即被试对某事件的回忆与标准描述的相似程度)或其被独特回忆的程度均无相关性。为了更好地理解注视与口头回忆之间的差异,该研究使用注视预测模型(DeepGaze IIE)对每帧电影的显著性(saliency)进行建模,然后比较事件间的平均显著性。结果呈现出与眼动数据高度相似的模式(图2C),这意味着注视模式的事件特异性主要由电影的视觉内容而非叙事内容解释(详见图2D直接比较)。重要的是,迄今为止呈现的所有眼动分析均基于电影观看阶段。在回忆阶段,MRI扫描仪内未采集眼动数据,而在桌面环境中采集也面临困难(例如,被试倾向于看向屏幕外,超出摄像头范围,详见“讨论”部分)。因此,在后续所有分析中,该研究从基于摄像头的眼动追踪转向基于磁共振的眼动追踪。该方法基于以下事实:眼球朝向与运动显著影响MRI测量的眼部多体素模式。因此,眼球MRI信号(简称MReye信号)可用于推断与注视相关的变量,即使在现有的fMRI数据集中也是如此。
借助MReye信号,该研究接下来检验在观影期间观察到的注视模式是否确实在回忆阶段被复现。为此,该研究采用了隐马尔可夫模型(Hidden Markov Model, HMM)方法,该方法此前已被用于在功能磁共振成像数据中揭示事件特异性脑活动与神经再激活。关键之处在于,此处该研究将该方法用于建模眼部的多体素模式,而非脑部模式(图3A),以检验是否存在同步的注视复现。简言之,HMM将眼区体素时间序列划分为若干离散状态,这些状态由相对稳定的多变量模式(模型事件)表征,并识别这些状态之间的转换(事件边界),共同定义电影的事件结构。基于先前的观察(图1、图2、图S4),该研究推断,HMM不仅应能从脑部数据中,也应能从眼部数据中学习电影的事件结构。
为验证这一想法,该研究使用自动化流程提取眼区体素,随后通过对头动估计进行干扰回归、线性去趋势和标准化(z-scoring)对体素时间序列进行去噪(详见方法部分)。接着,该研究反复将HMM拟合于观影数据,使用不同数量的模型事件(10–300),类似以往研究,发现135个事件在两个被试子池中达到交叉验证性能峰值。随后,该研究在全部被试池中重新训练模型,使用这135个事件,获得一个高度准确的模型,能够复现数据中的人工定义事件边界(z = 2.84,p = 0.005,n = 10000次随机置换,图3C)。这一成功的模型训练表明,确实可以基于MReye信号将电影划分为有意义的事件——使用与研究脑部事件分割过程相同的技术。重要的是,并非每位被试都回忆了所有事件(图1C)。因此,在检验注视模式是否可在观看与回忆之间泛化时,该研究确保训练好的HMM仅搜索每位被试实际回忆的事件。为此,该研究为每位被试创建了个体化的HMM副本,从每个模型中删除该被试未回忆的人工标注事件(图3D,左图)。接着,这些个体化HMM被拟合于回忆数据,预测被试在每一时刻正在回忆哪个事件(图3D,中图)。与注视模式至少部分复现的观点一致,该研究发现,模型在正确事件顺序下的表现显著高于随机顺序(z = 2.77,p = 0.003,n = 5000次随机置换),与同一数据中基于脑部活动的结果类似。请注意,即便不限制分析于被回忆的事件,也观察到类似结果(z = 2.04,p = 0.021);或当模型被专门训练为识别人工标注的48个事件时,结果亦稳健(z = 2.03,p = 0.021)。这些控制分析表明,该研究在MReye信号中发现的泛化模式在不同模型训练方案下均具有稳健性。
图2观影注视行为的事件特异性与跨被试一致性
图3基于眼区体素的事件分割为注视复现提供证据
迄今为止的结果为前两个预测提供了证据:与神经活动类似,注视模式在被试间稳健(图2A),对叙事事件具有特异性(图2B, C),并且可在观看与回忆之间泛化(图3)。为检验最后一个预测,即行为与神经领域存在关联,该研究进一步将基于眼部体素的注视估计与大脑中记录的fMRI活动联系起来。该方法的核心是使用基于深度学习的注视预测框架从MReye信号中解码注视位置估计,然后将这些位置估计转换为眼动估计(即相邻时间点位置之间的向量长度)。此外,为了后续比较,该研究也对基于摄像头的眼动数据计算了相同的眼动指标(图4)。该方法最终生成了一个建模眼动幅度的注视预测因子,该预测因子随后与血流动力学响应函数进行卷积、标准化,并通过大规模单变量广义线性模型(general linear model, GLM)拟合至每个脑体素的时间序列(包括头动参数的干扰回归)。该研究发现,注视预测因子确实与广泛脑区活动相关,包括大部分枕叶与内侧顶叶皮层,以及上颞叶、内侧颞叶与前额叶皮层(图4)。在电影观看期间,基于摄像头与基于眼部体素的测量结果呈现出高度相似的模式(图4A vs. B)。然而,在回忆阶段,仅有基于眼部体素的注视预测因子可用。值得注意的是,这些预测因子即使在缺乏电影刺激的情况下,也在回忆阶段揭示出注视依赖的活动(图4C)。重要的是,如果注视复现与神经再激活相关,那么该研究预期注视依赖的脑活动在观看与回忆之间应存在重叠。为检验这一想法,该研究计算了一种基于搜索光(searchlight)的局部相似性评分,该评分通过比较基于单变量注视幅度模型获得的两任务的(未阈值化、体积化的)统计组级图来实现。简言之,该研究以每个体素为中心,选取半径为3个体素的球形区域,提取局部多体素模式,并通过皮尔逊相关在任务间进行比较。所得相似性评分被赋给每个中心体素。使用该局部相似性指标,该研究发现广泛且强烈的证据表明,注视依赖的脑活动在观看与回忆之间存在重叠(图5),从而支持了预测3。此外,在皮层表面上观察到一个显著的后-前符号反转模式(图5)。具体而言,在枕叶与海马旁皮层,注视依赖活动在观看与回忆之间高度相似;而在前顶叶皮层与前额叶皮层,则表现出高度不相似(图5)。请注意,为了可解释性,该研究基于DeepMReye的注视预测因子聚焦于(推测的)眼动幅度,即定义为相邻体积间平均注视位置的变化。然而,即便平均注视位置保持不变,眼动仍可能影响MReye信号。因此,为了更全面地推断注视行为动态,该研究开发了一种额外的、无监督的方法,基于眼部多体素模式的时间变化分析。与此前HMM方法(图3)和DeepMReye(图4)不同,此处仅需计算去噪后的眼区体素模式在相邻体积间的皮尔逊相关,即可生成注视预测因子。随后,该预测因子以前述方式与脑活动相关联(包括广义线性模型拟合,图4;以及搜索光分析,图5)。使用该方法,该研究进一步确认了数据中注视依赖活动的存在,并发现其覆盖范围比解码方法更广,且在观看与回忆之间的重叠更强。
图4观影与回忆期间均存在广泛的注视依赖脑活动
图5观影和回忆之间基于探照灯的凝视依赖性大脑活动重叠图
该研究通过在自然情境下观看并回忆一部叙事电影,检验了“神经再激活与注视复现通过记忆提取过程中共同机制相互关联”这一假设。通过为广泛使用的“Sherlock观影数据集”补充关键的注视行为测量,该研究对由此假设衍生出的多项预测进行了验证。结果支持预期:观影期间的注视模式具有事件特异性且在跨被试间高度一致,从而遵循与神经活动相同的规律;此外,注视模式与脑活动同时在数据集内跨“观看”与“回忆”两个阶段泛化,且注视依赖的脑活动在两项任务间显著重叠。综上,这些结果为“注视复现与神经再激活确属紧密关联的现象”提供了证据,并表明叙事回忆所调用的机制与日常视觉中引导眼球运动的机制同源。除概念进展外,该研究还建立了多种技术与资源,可利用现有fMRI数据集研究注视依赖的脑活动。
已有观点认为,重演与特定体验相关的神经模式可复现该体验。这一观点同样适用于想象与梦境,可能涉及对不同过往经验模式的灵活重组。大量实证研究支持这些观点,表明观看与回忆所调用的神经基质显著重叠,包括在连续叙事回忆中观察到事件特异性神经再激活。该研究结果与这些报道及理论一致,并进一步指出,主动视觉为理解记忆提取提供了有益且互补的视角。重要的是,结果不应被解释为“回忆期间的脑活动仅仅反映眼动”,也不应认为这种共变关系仅特异于回忆或直接反映被回忆内容。相反,该研究的概念起点是承认神经回路的功能组织制约其在所有任务中的参与方式,许多通常与记忆相关的区域也深受自然视觉中其参与模式的影响。这种参与必然涉及注视行为,因为所有视觉印象均依赖于此,例如视野缺损会引起眼动的适应性变化。此外,该研究只能预期复现那些被采样而非被忽略的视觉细节,这再次说明考虑注视行为对理解记忆提取至关重要。因此,许多与观看相关的原则应在任务需求共享时推广到回忆及其他“非视觉”任务,包括此处观察到的注视行为重叠(图3)及注视依赖脑活动的重叠(图4与图5)。在自然视觉中,人眼每秒多次移动,每次固视环境的不同方面。若此种动态塑造神经回路的功能组织,且相同回路支持情景模拟,则自我生成的体验很可能也遵循类似动态。例如,在回忆中“看到”自家厨房时,我们并非一次性检索整体印象,而是可能依次检索各个细节,类似一连串固视,动态构建出类似观看的体验。这种序列化提取可在广泛神经序列中观察到。
尽管回忆时的活动模式可能受观看时的模式制约,仅此约束并不能解释为何注视模式本身会被复现。主动视觉再次提供有益视角:既然底层回路已适应于“在频繁眼动背景下支持视觉”,那么当这些回路被用于回忆等其他任务时,类似的“采样”机制很可能同样生效。自然视觉中,固视通过眼动相连,需基于当前视网膜输入规划并执行,伴随感知体验变化。若回忆调用类似机制,再激活的活动模式亦可能自然触发眼动,指示从一项检索内容跳至另一项。该研究结果支持这一观点,例如注视与神经模式遵循诸多相同原则(如事件特异性,图2),且即便未要求回忆视觉细节,眼区体素模式仍携带电影事件结构信息(图3)。对精细感知细节的重演或可解释为何眼区HMM将电影分割为比人工标注更多的事件,这与早前“脑中并存多种事件分割”证据一致。此外,建模眼动揭示的内侧顶叶“后部-前部”区分(图5)与早前“场景观看vs.回忆”发现相似,再次凸显回路任务参与与注视行为间的紧密关系。尽管属推测,这些观点与现有注视复现理论高度契合。例如,扫视路径理论认为固视与扫视序列本身被编码并作为记忆的一部分被检索。相反,另一理论认为眼动并非记忆内容本身,而是在提取过程中发挥作用,复现“编码情境”(即被回忆项目间的时空关系,而无需精确复现扫视路径)。这些理论与该研究共同之处在于,驱动眼动的活动模式被认为在功能上与记忆相关。将注视复现与神经再激活视为“神经系统功能组织所施加共同约束”的结果,不仅为两种现象提供了简洁解释,也说明为何许多看似“非视觉”任务会涉及动作相关信号与外显行为。例如,眼动已被证明反映工作记忆中项目间的切换,而“在感知事件间交替”这一普遍动态(通常称为注意)与记忆关键脑区的神经活动广泛关联。
尽管早期注视复现研究多使用简单静态刺激,该研究选择电影与自由观看以提高生态效度。值得注意的是,自然化研究面临认知与实验因素难以分离的挑战,且注视行为、脑活动与认知之间的方向关系仍不清楚。例如,眼动的感官后果与运动行为本身基本不可分割,且它们可能与其他解释当前数据的因素共变(如惊讶、参与度波动)。这些共变或可解释为何注视行为能预测包括听觉皮层在内的上颞叶脑活动,甚至解释某些区域观察到的脑活动与眼动幅度负相关(图4)。尽管未来研究可尝试通过行为编码模型分离这些因素,该研究认为此类努力可能收效有限,因为这些方法隐含假设感官、运动与记忆信号在神经活动层面可完全分离,而对于自然化范式,这一假设未必成立,且忽视了大脑的互联与动态本质。这些考虑引出一个重要问题:眼动是否是记忆神经基础研究中的混淆因素?在该研究视角下,答案取决于所做推论。眼动并非混淆因素,而应被视为所研究机制的固有组成部分。因此,与其将其视为干扰,不如在解释结果时纳入考量,并在所有任务中刻画其与神经活动的关系。与此一致,图像观看时的注视模式可预测后续再认成绩,而限制固视则损害神经活动与再认。此外,即便在无外显提取(即无报告)时,神经活动也能预测记忆依赖的注视模式变化。值得注意的是,此处观察到的注视依赖脑活动模式包括通常与情景记忆相关的区域,但也与经典默认模式网络效应有所偏离(图5)。该研究推测,这些模式并非直接反映回忆内容,而是标示视觉与记忆提取共享的序列采样机制,这与工作记忆任务发现一致:眼动常反映项目间切换,而非每个项目回忆深度。从此视角看,眼动不是混淆,而是回忆过程中涌现体验的整合表达。在此语境下,亦需强调导演电影旨在引导观众目光穿过场景,这或可解释该研究与既往观察到的被试注视轨迹高度一致。这种一致性也可能促进脑活动模式在跨被试间的可重复性,而个人经历回忆的注视与脑活动或许更具个体特异性。然而,即便实验室外注视与脑活动可能各异,注视复现与神经再激活之间的关系仍具有普遍性。
除概念进展外,该研究还建立了多种方法,可在现有fMRI数据集中研究注视复现与注视依赖脑活动。例如,该研究展示,用于揭示脑中神经再激活的相同技术(图3),亦可用于从眼部多体素模式推断同步发生的注视复现。此外,该研究提出一种无监督方法,从眼部MRI信号推断注视动态,补充了既往基于磁共振的眼动追踪手段。最后,该研究发布两个眼动数据集,作为广泛使用的“Sherlock观影数据集”的补充。
该研究使用语言模型对口头回忆进行了全面量化,但未采集心理表象生动性的主观评分(图1D)。原则上,注视复现强度应与自报表象强度或检索细节数量相关,这一点已在更受限制的情景模拟任务中得到证实。两个由此衍生的开放问题是:一,在不报告视觉表象的被试(如失象症者)中是否仍存在注视复现;二,驱动该研究在默认模式网络中观察到的任务依赖眼动-脑活动耦合机制为何(图5)。未来研究可通过系统操纵任务需求来解答这些问题,此类操纵已被认为可解释不同研究与年龄组间注视复现的差异。本研究局限在于回忆阶段缺乏高质量摄像头眼动数据,因被试常看向追踪范围外。尽管眼区分析表明观影相关眼动模式在回忆阶段被复现,未来工作可使用追踪范围更大的目镜式眼动仪进行更精细检验。此外,未来研究可将注视依赖脑活动与被试回忆内容直接关联,以阐明其功能角色,并在更广泛任务中评估其空间重叠。
基于叙事电影的观看与回忆,该研究提供了注视复现与神经再激活紧密关联的证据。注视行为与神经活动均表现出事件特异性、在跨被试间稳健,并在观看与回忆间泛化;注视依赖的脑活动在两项任务间亦显著重叠。这些结果表明,观看与回忆受神经系统功能组织的共同约束,并强调在理解记忆机制时,必须将行为复现与神经复现一并考虑。
参与者观看电视剧《神探夏洛克》第一季第一集的前48分钟。为方便中间休息并降低技术故障风险,视频被剪成两段:第一段23分钟,第二段25分钟。指导语为“像在家看电视一样观看,随后需要描述所看内容”。原数据集36在每次观影前额外播放30秒卡通片,此处已剔除。影片本身包含丰富的听觉与视觉信息,叙事紧凑,面向大众。
数据集1(MRI内):通过LCD投影仪将视频投射至后置屏幕,水平视角20°,垂直视角11.25°;声音经MRI兼容耳机呈现。
数据集2(桌面):使用VIEWPixx显示器呈现,水平视角40.5°,垂直视角22.8°;声音经封闭式立体声耳机呈现。
两段影片均使用Psychtoolbox播放。
两段观影结束后,参与者口头描述所看内容,语音被全程记录,称为“回忆阶段”。指导语:“请尽可能详细地、按时间顺序回忆,至少持续10分钟。”
数据集1:屏幕为黑色背景,中央有白色小点;参与者未被要求保持固视。
数据集2:屏幕为深灰色,无中央点;同样无固视要求。
共37名健康志愿者参与。
数据集1:16人(公开fMRI与语音数据,年龄18–26岁,皆为右利手英语母语者)。原22人中5人因头动过大、1人因数据缺失被排除;其中13人同时采集了扫描仪内眼动数据。
数据集2:21人(年龄22–59岁,右利手,20人为英语母语者)。
所有参与者视力正常或矫正至正常,实验前签署书面知情同意,并获得相应报酬。实验方案分别经普林斯顿大学及美国国立精神卫生研究所伦理委员会批准。
采集:
数据集1:使用定制MR兼容麦克风(FOMRI II;Optoacoustics Ltd.)在扫描仪内录音。
数据集2:使用市售USB麦克风(Blue Snowball)在桌面环境录音。
转录与事件分段:
音频转录为文本后,由两名独立编码者按电影时间线手工划分为48个叙事事件(时长11秒–3分钟)。事件定义基于地点、时间与主题关键节点,编码者事先不知实验假设。每段文本标注起止时间戳。时间戳可视化显示,参与者以压缩但顺序正确的方式回忆事件。
语义相似性(SBERT):
为量化回忆内容的语义相似性,使用预训练句子嵌入模型SBERT(all-mpnet-base-v2)对每个事件文本段进行编码,随后通过皮尔逊相关构建48×48事件相似性矩阵(图1D)。文本段长度均未超过模型768 token上限;少数“金标准”事件文本超长时被拆分为子段,相关值平均后得到 “Datasets combined”矩阵。各事件被回忆的次数不同。
采集
数据集1:扫描仪内使用长距眼动仪(iView X MRI-LR),60 Hz采样,13/16人成功记录;回忆阶段未采集。数据包含瞳孔-角膜反射位置,角膜反射因噪声过大被舍弃。
数据集2:桌面使用Eyelink 1000 Pro,500 Hz采样(9人原始1 kHz后降采样至500 Hz)。电影观看与回忆均采集,但回忆阶段多数被试视线超出校准范围,数据不可用,故后续未分析回忆摄像头眼动。
1.剔除眨眼及异常样本: gaze位置偏离中位数超过2倍平均绝对偏差(MAD)的样本被删除。
2.线性去趋势、中位数中心化。
3.100 ms滑动平均平滑,去除漂移并进一步降噪。
扫视检测:采用6×MAD速度阈值,剔除<12 ms的短扫视。
事件级指标:计算每个叙事事件的平均扫视频率、幅度与持续时间。
跨被试相似性:对每对参与者计算水平与垂直gaze路径的Spearman相关,取两维度与两run的平均值。为评估显著性,对每对路径进行5000次随机时移(环形移位),构建零分布,将观测相关转换为Z分数:
其中 是观测到的斯皮尔曼相关性,
是打乱后相关性的均值,
是它们的标准差。最后,计算了相关性和 Z 分数的平均标准误。请注意,所有的打乱操作都没有产生与未打乱数据中观测到的斯皮尔曼相关性相等或更高的相关性,这意味着相应的 p 值实际上为零。虽然未报告,但对应于 Z 分数的 p 值必须小于打乱次数的倒数(即 p < 0.0005)。为了比较事件在参与者注视屏幕位置方面的差异,计算了每个事件内的注视位置二维直方图。每个直方图包含 101 x 53 个 bins,以匹配刺激的尺寸。这些直方图在每个事件和每个参与者内部进行归一化,使其总和为 1,使用大小为 3 个标准差的二维高斯核进行平滑,然后使用成对皮尔逊相关性进行比较。此过程产生了参与者特定的事件-by-事件相似性矩阵,然后在参与者之间进行平均,以获得每个数据集的一个矩阵(图 2C)。仅出于可视化目的,这些组水平的矩阵进行了排序,这可以归一化颜色标度并使其在图形之间保持一致,以帮助视觉比较。最后,为了将眼动追踪数据与大脑活动联系起来,实验计算了一个用于后续一般线性模型分析的注视预测变量(见方法部分“使用一般线性模型将注视与大脑活动联系起来”)。对于每个功能性 MRI 体积,实验计算了平均注视位置,从而产生一个位置时间序列,然后通过计算连续体积之间测得位置的向量长度,将其转换为眼动时间序列。对于每个观看电影的扫描运行,最终通过在该眼动时间序列的开头填充一个 NaN 来获得一个注视预测变量。该注视预测变量用于获得图 4A 所示的结果。对于回忆任务,无法计算此注视预测变量,因为没有记录眼动追踪数据。
该研究基于语言模型对口语回忆的分析(图 1D)以及眼动分析(图 2C)得到了事件间相似性矩阵,这些矩阵在两个数据集中得到了重复。然而,这两种数据类型的结果模式不同,这使该研究感到惊讶,因为电影是根据其叙事内容进行分段的。因此,为了更详细地理解该研究观察到的事件特异性注视模式,该研究测试了这些模式是否可以基于电影的视觉内容而非句子嵌入进行预测。该研究使用了一个预训练的注视预测模型 DeepGaze IIE来计算每帧电影的视觉显著性,以二维概率图的形式表示。为了减少计算成本,该研究将电影降采样至 5Hz 后再输入模型。得到的显著性图在每个事件内进行了平均,随后通过事件间的成对Pearson 相关进行比较。该过程得到了一个事件间相似性矩阵,其格式与基于摄像头的眼动数据得到的矩阵相同(图2C)。
为了比较来自口语回忆数据(图 1D)、眼动数据(图 2C,左图和中图)以及帧级显著性(图 2C,右图)的事件间相似性矩阵,该研究使用 Pearson 相关对这些矩阵的下三角部分进行了比较。注意,对角线部分被排除,且使用的是未排序的数据(即图 1D 和图 2C 中原始、未排序的矩阵版本)。这些比较的结果如图 2D 所示(左图:眼动数据集 1 与数据集 2 的比较;中图:眼动数据集 1 和2 的平均值与使用 DeepGaze IIE 估计的帧级显著性之间的比较;右图:眼动数据集 1 和 2 的平均值与口语回忆数据集1 和 2 的平均值之间的比较)。
除了使用句子嵌入之间的事件相似性来量化参与者的口语回忆(图 1D)外,该研究还计算了两个补充指标:可回忆性(Recallability) 和 独特性(Distinctiveness)。这些指标受到先前研究的启发,并将参与者的回忆与由独立参与者创建的“真实”事件描述进行比较。可回忆性被定义为参与者口语回忆的句子嵌入与对应事件描述的句子嵌入之间的 Pearson 相关系数。由于某些事件描述超过了 sBERT 的最大 token 长度,该研究将其划分为多个子段,每个子段的长度与最短的事件描述相匹配。该研究计算了这些子段的嵌入,并与相应的回忆嵌入进行相关,随后对所有子段的相关结果进行平均,以获得每个事件的单一可回忆性得分。
虽然可回忆性捕捉了回忆事件与其对应描述之间的原始相似性,但它并未考虑事件的特异性。原则上,一个事件的回忆可能与所有事件的描述都同样相似,而不仅仅是其对应的描述,从而缺乏事件特异性。为了解决这一问题,该研究计算了一个独特性得分,定义为观察到的可回忆性值相对于该事件回忆嵌入与所有其他事件描述嵌入之间相关分布的 Z 分数。这控制了事件间可能存在的语义内容重叠,并评估了该事件被独特回忆的程度。换句话说,独特性得分衡量的是一个事件回忆相对于其他事件的独特性。最后,这两个得分与电影观看过程中估计的每个事件的扫视参数进行了比较,以评估电影观看过程中的注视行为是否与后续的回忆方式(通过语言模型方法评估)有关。该研究未发现回忆指标与扫视参数之间存在强关系。
数据集 1 的 fMRI 数据是在一台 3T Siemens Skyra 扫描仪上使用回波平面成像序列采集的,参数如下:重复时间(TR)= 1500 ms,回波时间(TE)= 28 ms,体素大小 = 3.0 × 3.0 × 4.0 mm,翻转角 = 64°,视野= 192 × 192 mm。结构像使用 T1 加权 MPRAGE 脉冲序列采集(分辨率为 0.89 mm³)。数据集 2 未采集 fMRI 数据。
MRI 数据使用 fMRIprep 20.2.1 进行预处理,采用默认设置,使用了 FreeSurfer 6.0.1、FSL 5.0.9 和 ANTs 2.3.3。结构像使用 ANTs 的 N4BiasFieldCorrection 函数进行强度非均匀性校正。功能数据通过将每幅图像配准到 fMRIprep 计算的 BOLD 参考图像来进行头动校正,得到了使用 FSL 的 mcflirt 函数估计的头动参数(即变换矩阵以及六个平移和旋转参数)。随后,这些数据进一步使用 FreeSurfer 的 bbregister 函数配准到预处理后的结构像,并使用 ANTs 的 antsRegistration 函数标准化到蒙特利尔神经研究所(MNI)标准空间。最后,使用 SPM12 将这些功能数据重采样为各向同性体素分辨率为 3×3×3 mm。
为了检验眼体素模式是否携带关于电影事件结构的信息,并是否该信息可在观看与回忆之间泛化,该研究采用了 Brain Imaging Analysis Kit(BrainIAK)中实现的隐马尔可夫模型(HMM)方法。HMM 常用于推断连续时间序列数据中的潜在事件结构,例如 fMRI 测量的大脑活动。该模型假设一组隐藏状态(即模型事件)产生活动模式,并识别系统在这些状态之间转换的时间点(即事件边界)。
该研究采用该方法研究注视再现的原因有三:首先,该方法特别适合分析自然刺激(如电影),其中认知过程是连续展开的,而非预先划分为试验;其次,模型可在电影观看数据上训练,并在回忆数据上测试,从而实现跨任务泛化,类似于迁移学习;最后,该方法已在前期工作中成功用于揭示该数据集中基于大脑体素的事件特异性神经再激活。重要的是,该研究不是使用大脑体素,而是测试了是否在电影观看数据上训练的 HMM 能够基于眼睛的体素模式在回忆阶段识别这些事件(图 3A)。
在模型训练前,该研究对每个体素的时间序列进行了去噪处理,回归了由 fMRIprep 估计的干扰时间序列,包括图像的平移和旋转及其一阶导数,以及帧间位移和白质及脑脊液信号的平均值。最终,体素间相关性低于 0.1 的体素被排除。
为确定最优事件数量,该研究将 HMM 反复拟合到一半参与者的电影观看数据中,每次测试不同数量的事件(范围:10–300)。随后选择在对另一半参与者数据中具有最高对数似然的模型(图 3B)。对数似然是模型性能的度量,表示模型对观察数据序列的解释能力。最终确定最优事件数量为 135(图 3B),随后使用该数量对所有参与者的数据重新拟合模型。该最终模型用于后续测试。
为测试模型是否将电影划分为类似于人工标注的有意义事件,该研究检验了 HMM 是否在人工标注的事件边界处表现出更高的事件转换证据,相比于打乱后的边界(图3C,左图)。为此,该研究计算了事件转换强度(ETS),定义为模型状态概率时间序列的时间导数。ETS 反映了模型对潜在事件状态变化的敏感性,值越高表示事件转换的证据越强。具体而言,该研究提取了模型在人工标注事件边界处的 ETS 值,并在所有事件间平均,得到整个电影的一个 ETS 得分。随后,该研究对这些边界进行时间上的随机打乱(共 10000 次),每次重新计算得分。最终,将实际观察到的 ETS 得分转换为 Z 分数,表示其相对于打乱分布的位置(图 3C,右图)。结果表明,实际 ETS 得分位于打乱分布的尾部,说明模型推导的事件边界与人工标注的边界相似度高于随机水平。
在确认 HMM 能在电影观看数据中提取有意义的事件后,该研究进一步测试其是否能在回忆阶段基于眼体素模式识别这些事件的再现(图 3D,左图)。为此,该研究将训练好的 HMM 应用于回忆数据,以预测每个功能体积中回忆的是哪个事件。重要的是,尽管 HMM 被训练以识别电影中的所有事件,参与者并不一定回忆起所有事件。实际上,不同参与者回忆的事件不同(图 1)。因此,在测试前,该研究为每个参与者创建了个性化版本的 HMM,仅包含该参与者回忆的事件。这些个性化模型随后分别应用于各自参与者的回忆数据(图 3D,中图),并计算对数似然作为模型性能指标。与之前类似,该研究将模型性能表示为 Z 分数,相对于通过打乱事件顺序获得的分布(共 5000 次)。如果注视模式在回忆中被再现,模型在真实事件顺序下的表现应优于随机顺序,结果确实如此(图 3D,右图)。
由于数据集 1 中仅在电影观看阶段采集了摄像头眼动数据,回忆阶段未采集,因此该研究使用基于磁共振的眼动追踪方法从眼睛的信号中推断注视行为。以下方法受到先前研究启发。
为验证眼体素模式是否包含注视行为信息,该研究首先对每个参与者的电影观看数据进行了主成分分析(PCA)。对于 13 个有摄像头眼动数据的参与者,该研究使用所有眼体素和时间点估计了 10 个主成分(PC),得到 10 个对应的 PC 时间序列。为测试这些 PC 是否能解释摄像头眼动数据中的方差,该研究使用多元线性回归将其拟合到以下注视指标:每个功能体积的水平(X)和垂直(Y)中位注视位置、水平(Xvar)和垂直(Yvar)注视位置的方差,以及前述的扫视参数(扫视数量、幅度、持续时间)。缺失眼动数据的功能体积被排除。结果显示,眼体素的 PC 可解释这些注视指标中相当一部分方差,尤其是注视位置。
该研究使用一个三维卷积神经网络(DeepMReye)从每个功能体积的眼睛信号中解码注视位置。利用这些注视位置估计值,该研究计算了连续体积之间的位置变化,作为眼动估计值。通过在该眼动时间序列前添加一个 NaN 值,得到了每个扫描运行的一个注视预测因子,类似于摄像头眼动追踪中得到的时间序列。但与摄像头眼动追踪不同的是,该预测因子可同时用于电影观看和回忆阶段,结果见图 4B、C。
为获得最佳模型性能,该研究使用数据集 1 中的眼动数据对预训练的 DeepMReye 模型进行了微调。模型权重初始化为使用引导注视、平滑追踪和自由观看数据训练的权重,随后使用测量与解码注视位置之间的欧几里得误差作为损失函数,进行了 1 个 epoch、5000 步的微调。模型参数如下:batch size = 8,学习率 = 0.000002,衰减 = 0.03,无 dropout,无噪声。数据增强包括三维旋转(5 度)、三维平移(5 个体素)和缩放(因子 = 0.2)。
默认情况下,DeepMReye 每个功能体积使用 10 个注视位置进行训练。为进行微调,该研究将眼动数据降采样至 1.5 Hz,并将每个样本分配给对应的功能体积。若某一体积中有效样本少于 50%,则视为不可靠并排除。尽管此过程减少了噪声,但也增加了每个参与者的缺失样本数量。缺失样本在 MRI 扫描中很常见,尤其是在眼动校准困难的情况下。然而,由于该研究中注视行为在参与者间高度一致(图 2),该研究最终使用组级中位注视路径进行模型微调,而非每个个体的数据。使用组级路径不仅最大化了训练数据量,也使得该研究能够使用所有 16 名参与者的 MRI 数据进行微调,而非仅限于 13 名有摄像头眼动数据的参与者。模型性能通过摄像头组级中位注视路径与每个参与者解码路径之间的 Pearson 相关和欧几里得误差进行评估。
除上述解码方法外,该研究还实现了一种无监督方法,用于基于眼体素的多体素模式推断注视行为的变化。该方法无需模型训练,适用于任何包含眼睛区域的 fMRI 数据集。该方法包括三个主要步骤:
1.使用 DeepMReye 中的自动眼睛提取方法识别眼体素;
2.对每个体素的时间序列进行去噪处理,回归头动参数,并进行线性去趋势和标准化;
使用这些去噪后的时间序列,计算相邻体积之间的多体素模式相似性(Pearson 相关)。逻辑是:若两个体积间注视行为相似,则模式相似性高;若不同,则相似性低。因此,模式相似性的波动应反映注视行为随时间的变化。
3.最终得到的模式相似性时间序列(前补 NaN)被用作 GLM 分析中的注视预测因子。与摄像头眼动追踪不同,该预测因子可同时用于电影观看和回忆阶段。
所有通过摄像头和磁共振眼动追踪技术得到的注视预测因子都使用 SPM12 和数据集 1 以相同方式与大脑活动关联。首先,这些预测因子被归一化至 0 到 1 之间,以便与 SPM12 中的血流响应函数进行卷积。卷积后的预测因子再次归一化并中心化,以建模体素时间序列围绕均值的波动。
不同类型的注视预测因子(摄像头、DeepMReye、时变眼体素模式)分别拟合独立的 GLM。为减少噪声,功能 MRI 数据在建模前进行了 4 mm 的空间平滑(与体素大小匹配)。除主要注视预测因子外,GLM 还包括头动参数和每个运行的一个常数列(用于建模时间序列均值)。
GLM 拟合后,该研究使用 SPM12 中的 SnPM 工具箱进行了组水平的置换 t 检验,检验注视预测因子的 beta 估计值是否显著大于零。检验设置为单尾,共 10000 次置换,方差平滑为 6 mm。最终的组水平统计图通过 mri_vol2surf 投影到 FSaverage 表面,并使用 FreeSurfer 7.3.2 中的 Freeview 进行可视化。
最后,该研究使用基于搜索光的分析方法比较了电影观看与回忆阶段的组水平统计图。具体而言,该研究以每个体素为中心,提取半径为 3 个体素的局部多体素模式,并在两个任务之间计算 Pearson 相关,将相关得分赋给中心体素。这些分析在体积空间中使用未阈值数据完成,结果再次通过 mri_vol2surf 投影到 FSaverage 表面进行可视化。
人类在回忆过去事件时,大脑中的神经活动模式会“重演”当初经历时的状态,这一现象被称为神经再激活(neural reactivation)。与此同时,注视再现(gaze reinstatement)也被观察到:人们在回忆时的眼动轨迹与最初观看时的轨迹高度相似。尽管这两个现象分别被广泛研究,但它们之间的关系尚不清楚。该研究基于自然观看与回忆任务,提出一个假设:注视再现与神经再激活通过一个共同的机制——对过去经验的再体验——而紧密关联。
该研究旨在验证以下三个核心预测:
1.注视行为与神经活动一样,具有事件特异性并在个体间高度一致;
2.注视模式与神经活动一样,可在观看与回忆之间泛化;
3.注视行为与大脑活动在观看与回忆中均显著相关,且其空间分布存在重叠。
数据来源:基于“Sherlock观影数据集”,包括两个独立数据集(Dataset 1:fMRI+眼动,n=16;Dataset 2:桌面眼动,n=21)。
任务设计:参与者观看《神探夏洛克》第一集(48分钟),随后进行自由口语回忆。
技术手段:
l使用语言模型(sBERT)对口语回忆进行语义建模;
l使用摄像头眼动追踪与基于MRI的眼体素信号(MReye)提取注视行为;
l使用隐马尔可夫模型(HMM)从眼体素模式中识别事件结构;
l使用深度学习模型(DeepMReye)从眼体素信号中解码注视位置;
l使用广义线性模型(GLM)分析注视行为与大脑活动之间的关系;
l使用搜索光(searchlight)方法比较观看与回忆阶段的脑活动模式相似性。
1.语义回忆结构准确:参与者口语回忆的事件顺序与语义内容与电影原结构高度一致,且跨数据集可重复。
2.注视行为事件特异性强:注视模式在个体间高度一致,且在不同事件中显著不同,主要由视觉内容(显著性)驱动,而非语义内容。
3.注视模式可跨任务泛化:HMM模型能从眼体素信号中识别出电影事件结构,并在回忆阶段准确识别出被回忆的事件顺序。
4.注视行为与大脑活动高度耦合:注视预测因子(眼动幅度)与广泛脑区(包括枕叶、顶叶、颞叶和前额叶)活动显著相关,且该相关性在观看与回忆阶段高度重叠。
5.眼动与脑活动共享空间模式:搜索光分析显示,观看与回忆阶段的眼动相关脑活动模式在大部分脑区高度一致,尤其在枕叶和海马旁皮层。
该研究得出结论:注视再现与神经再激活是深度关联的现象,它们共同反映了对过去经验的再体验过程。注视行为不仅在回忆中被“重演”,而且其神经基础与观看阶段高度重叠,表明视觉采样机制在记忆提取中同样发挥作用。这一发现支持了“功能组织结构约束认知机制”的观点,即大脑在视觉与记忆任务中共享一套基本操作原则。
1.理论层面:首次在自然回忆任务中系统验证了注视再现与神经再激活的功能联系,为理解记忆提取机制提供了新视角。
2.方法层面:建立了多种基于MRI眼体素的眼动追踪技术,拓展了fMRI数据的应用范围,尤其适用于无摄像头眼动的旧数据集。
3.数据资源:共享了两个高质量眼动数据集与代码,推动领域开放科学。
1.回忆阶段眼动数据缺失:由于参与者常看向屏幕外,未能获得高质量摄像头眼动数据,限制了行为层面的直接验证。
2.未采集主观视觉意象强度:未能评估注视再现强度与个体主观意象清晰度之间的关系。
3.电影刺激具强引导性:导演手法可能人为提高了注视一致性,结果是否适用于更自然的回忆情境仍需验证。
4.因果方向尚不明确:无法确定注视行为是驱动神经活动,还是反之,或两者受更高层次认知过程共同调控。
未来的研究方向可能包括:
1.引入 goggles 式眼动仪:扩大眼动追踪范围,获取回忆阶段高质量眼动数据。
2.系统操控任务需求:通过改变回忆任务要求(如视觉细节 vs. 语义概述),检验注视-神经耦合的机制性作用。
3.研究无视觉意象者(aphantasics):探索其在回忆中是否仍表现出注视再现及其神经基础。
4.拓展至自传体记忆:检验该机制是否适用于非结构化、个体化的真实记忆回忆。
参考文献
Nau M, Greene A, Tarder-Stoll H, et al. Neural and Behavioral Reinstatement Jointly Reflect Retrieval of Narrative Events. 2024; doi: 10.1101/2024.10.19.619187.
解读:柴逸凡
审核:林增臻