数据导入
西门子、飞利浦、联影、GE…发布:2025-11-24 浏览:12 次
简要总结
这篇文章的核心内容是研究静息态功能连接(resting state Functional Connectivity,rsFC)在开发精神障碍生物标志物中的应用,以及如何通过多中心静息态fMRI数据来提高生物标志物的可靠性和实用性。研究团队利用来自84名旅行受试者(跨越29个站点)的1500多次10分钟静息态数据,以及来自900名参与者(包含三种精神障碍的病例对照研究)的数据,分析了与疾病相关和与疾病无关的功能连接变化。研究结果揭示了个体功能连接的层次变化,包括受试者内跨运行变化、个体差异、疾病效应、扫描仪差异和协议差异。通过稀疏机器学习算法,研究团队发现这些变化可以通过选择功能连接、加权求和和集成平均来显著降低个体差异和受试者内跨运行变化的影响,从而提高生物标志物的信号噪声比(Signal-to-Noise Ratio,SNR)。这一全面的方法为开发可靠的个体水平生物标志物提供了分析工具,并强调了进一步减少个体差异和受试者内跨运行变化以提高预测准确性的必要性。
rsFC越来越多地被用于开发精神障碍的生物标志物。尽管取得了一定进展,但开发可靠且实用的功能连接(Functional Connectivity,FC)生物标志物仍然是一个未实现的目标,特别是那些能够在个体水平上进行临床预测、具有普适性、鲁棒性和准确性的生物标志物。在本研究中,提出了一种新方法,从多个角度对每种连接进行分析,不仅包括与疾病相关的差异,还包括与疾病无关的变异,这些变异归因于个体差异、同一受试者跨运行、成像协议和扫描仪因素。通过利用来自29个站点的84名旅行受试者以及900名参与三种精神障碍病例对照研究的受试者的1500多次10分钟静息态数据,估计了每个个体功能连接的疾病相关和与疾病无关的变异。利用功能连接分析信息,评估了疾病相关和与疾病无关的变异对多中心数据训练的集成稀疏分类器的多连接生物标志物输出的影响。分析揭示了个体功能连接的层次变化,包括同一受试者跨运行变化、个体差异、疾病效应、扫描仪差异和协议差异,这些变化通过稀疏机器学习算法得到了显著的调整。研发现这种调整主要归因于通过选定的功能连接的加权和和集成平均,相对疾病相关差异而言,抑制了个体差异和同一受试者跨运行变化。这种全面的方法将为开发可靠的个体水平生物标志物提供分析工具。
1 引言
近年来,精神障碍已成为一个严重的社会问题。流行病学和经济分析表明,其全球影响在人类健康和社会福利方面是巨大的。然而,目前的诊断方法主要基于自我报告的症状或在医疗访谈中识别的症状,这些方法不足以优化治疗。基于基因、血液分析和神经影像学数据的生物标志物可以克服这些限制。
静息态功能连接(resting state Functional Connectivity,rsFC)是开发精神障碍生物标志物最有前景的方法之一。这种方法通过使用非侵入性脑测量技术(通常是功能性磁共振成像,fMRI)量化大脑区域之间自发波动的共激活来评估大脑功能网络。大量研究强调了功能连接(Functional Connectivity,FC)与个体特征、任务活动、大脑状态、解剖结构和神经信号的相关性。由于其简单性、多功能性、可解释性和对个体差异的敏感性,功能连接生物标志物在精神病学中用于客观诊断、个性化治疗选择和神经调节目标识别方面显示出巨大潜力。
尽管取得了进展,但开发可靠且实用的功能连接生物标志物仍然是一个未实现的目标,特别是那些能够在个体水平上进行临床预测、具有普适性、鲁棒性和准确性的生物标志物。尽管已识别出患者组与健康对照组之间的功能连接改变,但个体水平的分类只能借助机器学习算法实现。在多中心研究中,成功开发了用于抑郁症(MDD)、精神分裂症(SCZ)和自闭症谱系障碍(ASD)的生物标志物,这些生物标志物使用集成稀疏分类器,能够很好地泛化到不同中心的数据,并在新数据上保持一致的性能。然而,其在完全独立数据集上的区分能力,以曲线下面积(AUC)评估,分别为MDD、SCZ和ASD的0.74、0.82和0.66–0.81,可能尚未达到高标准。
要开发可靠且实用的生物标志物,必须克服两个关键障碍:rsFC的低测试-重测可靠性以及可用数据集的有限规模。以往研究静息态功能连接的可靠性和有效性表明,rsFC在个体连接水平上显示出低到中等的可靠性,而使用多变量连接可以增强可靠性。然而,这些研究大多集中在健康人群中的个体识别,只有非常有限的研究调查了rsFC在生物标志物开发中的可靠性。其次,用于生物标志物开发的数据集规模仍然有限——通常为数百到数千个样本——尽管期望机器学习能够有效解决rsFC的变异性。尽管多中心rsFC研究被认为对于收集大规模数据和开发适用于真实世界临床环境的生物标志物具有价值,但对多中心研究中rsFC变异性的全面和定量理解仍然缺乏。此外,关于机器学习算法如何减轻rsFC变异性和哪些因素限制了分类性能进一步提高的知识差距仍然存在。
为了解决上述问题,评估了多中心环境中各种因素对FC的影响,并调查了机器学习算法如何减轻由此产生的FC变异性。利用了两个主要的跨越十年的日本项目的数据:战略性脑科学研究计划(SRPBS)(2012–2018)和超越脑/心智项目(BMB)(2018–2024)。这些项目以其从众多旅行受试者(84名参与者)和大约10,000名参与者中收集的广泛数据为特色,其中包括数千名患有各种精神和神经障碍的患者,跨越多个中心。本研究分析了来自BMB和SRPBS旅行受试者数据集的约2400次10分钟睁眼静息态fMRI数据运行,以及SRPBS多障碍数据集(图1)。研究发现个体FC的层次变化,从运行间变化、个体差异、疾病效应、扫描仪差异和协议差异。之前研究中提出的稀疏机器学习算法可以通过优化选择FC、加权和集成平均来有效优先考虑疾病效应,并显著调整上述变异性因素的顺序。更具体地说,揭示了三种不同的计算机制,这些机制将生物标志物的信噪比(疾病效应/参与者相关变异性)提高了近15倍。这些发现使的rsFC生物标志物适用于临床应用,并强调了进一步最小化个体差异和同一受试者运行间变化以提高预测准确性的必要性。
图1 本研究使用的数据分析流程示意图。本研究分析了来自日本两项全国性项目(Brain/Minds Beyond(BMB)和战略性脑科学研究计划(SRPBS))的两个旅行受试者数据集,以及SRPBS的多障碍数据集,以更全面地了解与个体差异、扫描仪差异、成像协议差异以及未解释的残差成分相比,与疾病相关的FC变异。首先,研究使用精心设计的线性固定效应模型计算了每个因素和残差成分引起的FC变异。使用旅行受试者数据集的一个子集(纳入标准:在单一测量条件下至少有六次运行数据的受试者)单独计算了同一受试者跨运行的FC变异。功能连接通过个体(受试者)、扫描仪、成像协议、同一受试者跨运行差异以及疾病差异所导致的FC变异幅度来表征。此外还评估了每个因素的FC变异对之前使用最小绝对收缩和选择算子(LASSO)集成分类器开发的多变量FC生物标志物结果的影响。
2 方法
数据集
本研究分析了来自日本两个全国性项目(SRPBS,2012–2018年和BMB,2018–2023年)的两个旅行受试者数据集,以及SRPBS多障碍数据集的一部分。SRPBS项目是开创性的多中心研究,旨在使用统一的成像协议开发多中心通用的精神病生物标志物。随后的BMB项目旨在通过使用尖端的成像协议和数据处理技术改进生物标志物的选择。为了在两个项目之间桥接生物标志物的选择,BMB旅行受试者数据使用SRPBS成像协议和两种新的成像协议进行采集。研究这些成像协议对FC变异的影响是本研究的一个重点。
SRPBS旅行受试者和多障碍数据集的详细描述已在之前的研究中提供。所有用于分析的SRPBS数据均可公开获取。简而言之,九名年轻成年男性受试者(年龄范围:24–32岁;平均年龄:27±2.6岁)在旅行受试者数据集中访问了12个站点,参加了涉及10分钟静息态测试的两次或三次fMRI实验,每个站点的单次实验会话中进行。因此,共获得了411次10分钟睁眼静息态fMRI数据运行。研究使用了称为SRPBS协议的统一成像协议。由于硬件限制,根据使用的扫描仪类型,使用了两种相位编码方向,分别是A->P(从前到后)或P->A(从后到前)。然而,研究没有将相位编码方向作为不同的成像协议加以区分,因为使用相应的场图校正了其影响。该数据集包括来自三家不同MRI制造商(西门子、GE和飞利浦)的七种类型扫描仪的数据。用于分析的SRPBS多障碍数据集由大约900名受试者的数据组成,这些数据使用SRPBS成像协议在以下四个站点(COI、KUT、SWA、UTO)采集。该数据集包括三种精神病障碍(MDD、ASD和SCZ)的患者和健康对照(Healthy Control,HC)的数据。
关于BMB数据集的具体细节已在之前的研究中描述。简而言之,数据来自75名受试者(48名男性和27名女性;平均年龄:31.8±10.0岁),来自17个站点。每个受试者访问了三个或更多站点,包括根据轮辐模型的一个枢纽站点,这与SRPBS旅行受试者设计不同,在SRPBS旅行受试者设计中,所有受试者访问所有站点。对于每个参与者,在每个站点的单次实验会话中进行了至少两次10分钟睁眼静息态fMRI任务。在每个站点至少招募了五名健康参与者。总共,使用三种成像协议获得了大约1200次10分钟睁眼静息态fMRI数据运行,包括之前提到的SRPBS协议、CRHD协议(这是美国人类连接组项目(HCP)的CRHD倡议开发的MRI协议,针对高性能3T MRI扫描仪如MAGNETOM Prisma(西门子医疗有限公司,德国埃尔朗根)进行了定制)以及HARP(这是一种HCP风格的协议,扫描时间较短,针对临床研究进行了优化,以便可以在多个MRI扫描仪/站点使用,并旨在在“临床”实用的时间窗口内获得高质量、标准化的大脑MRI数据)。包括来自两家MRI制造商(西门子和GE)的七种扫描仪类型。
点击下方链接了解平台更多算法:(1)基于Fixel分析太难?脑海科技多模态脑影像云平台一键解锁白质纤维束全分析流程!
(15)捕获大脑的“高光时刻”!高振幅共波动分析揭秘全脑协同爆发瞬间:脑海科技脑影像云平台,秒级定位“关键帧”
功能连接计算
研究使用相同的处理步骤为SRPBS和BMB数据集计算区域级全脑功能连接矩阵。
静息态fMRI图像使用fMRIPrep 1.0.8的标准处理流程进行预处理,包括几个步骤,包括排除T1平衡的最初10秒数据、时间层校正、重新对齐、共配准、使用场图进行失真校正、T1加权结构图像分割、归一化到蒙特利尔神经学研究所空间以及表面投影。
随后,静息态fMRI时间序列数据经过以下处理步骤:通过使用12个回归因子去除生理噪声,包括六个头动参数、全脑信号平均值和五个基于解剖成分的噪声校正(CompCor)成分。然后,数据通过二阶巴特沃斯滤波器进行带通滤波,通带范围为0.01–0.08 Hz。使用Glasser的基于表面的MMP图谱计算区域级全脑连接矩阵,该图谱包含379个感兴趣区域(ROI)(360个皮层小块和19个皮下小块),使用ciftify工具箱版本2.0.2–2.0.3。区域时间序列通过平均每个区域内的体素时间序列获得。通过计算所有区域时间序列对之间的皮尔逊相关性获得连接矩阵。为了控制头动的影响,排除了高帧间位移(>0.5 mm)的体积以及它们之前的一个体积和之后的两个体积,以进行FC计算。此外,排除了移除体积数量超过所有受试者平均值+3个标准差的受试者。由于连接矩阵是对称的,提取了下三角元素,并形成了一个大小为71,631×1(称为连接向量)的向量。最后,对连接向量的每个元素应用了Fisher-z变换。
在排除受图像处理错误、头动过大和单个站点运行次数不足的数据后,分析了来自SRPBS旅行受试者数据集的398次运行,包括9名受试者、1种协议和7种扫描仪类型,以及来自BMB旅行受试者数据集的1167次运行,包括73名受试者、3种协议和6种扫描仪类型。
估计功能连接变异
为了确定实验因素(如受试者、扫描仪或成像协议)对功能连接的影响,研究为每个连接使用了线性固定效应模型,这使实验能够估计这些因素的影响幅度。对于BMB旅行受试者数据,使用了包含受试者、扫描仪和成像协议的三因素模型,而对于SRPBS旅行受试者数据,则使用了包含受试者和扫描仪因素的两因素模型。
同一受试者跨运行功能连接变异的计算
为了研究线性固定效应建模产生的残差功能连接变异的来源,直接从功能连接向量计算了同一受试者跨运行的功能连接变异。同一受试者功能连接变异通常由同一受试者不同运行之间的连接模式的变异性定义。在本研究中筛选出至少在单一测量条件下进行了六次运行的受试者,以稳健地估计受试者特定的同一受试者功能连接变异。对于每个选定的受试者,数据收集自至少两天的实验会话,每天三次运行,受试者特定的同一受试者功能连接变异是通过计算该特定受试者所有运行的功能连接向量的标准差获得的。然后,将所有受试者特定的同一受试者功能连接变异的平均值计算为同一受试者功能连接变异,这在本研究中简单地称为同一受试者功能连接变异。
在筛选出至少在单一测量条件下进行了六次运行的受试者后,SRPBS数据集包含了来自名为ATR的单一站点的Trio扫描仪获得的132次运行,涉及9名受试者,而BMB数据集包含了来自31名受试者、使用HARP和四种不同扫描仪类型获得的201次运行,跨越七个站点。
疾病相关功能连接变异的计算
对于临床应用,将与神经精神疾病相关的功能连接差异与与疾病无关的差异(如与成像协议或扫描仪相关的差异,或在旅行受试者数据分析中识别的同一受试者和受试者功能连接变异)进行比较至关重要。因此,使用SRPBS多障碍数据集的一部分数据计算了三种精神病障碍(包括MDD、ASD和SCZ)的疾病相关功能连接差异。使用与旅行受试者数据集完全相同的方法,使用Glasser的MMP图谱计算了全脑功能连接矩阵。应用基于SRPBS旅行受试者数据的统计谐波分析以减少站点效应。对于每种精神病障碍,尽可能多地从数据集中随机选择年龄、性别和站点匹配的健康对照受试者,包括138名MDD患者和138名健康对照(年龄:42.12±12.33和41.76±12.39岁;男性比例:0.46、0.54);109名ASD患者和109名健康对照(年龄:29.14±8.35和31.25±7.33岁;男性比例:0.84、0.87)以及84名SCZ患者和84名健康对照(年龄:37.20±11.24和37.18±11.46岁;男性比例:0.58、0.57)。疾病相关功能连接差异是通过计算患者组和匹配健康对照组之间的组平均功能连接差异的绝对值来计算的。
统计程序
为了统计评估疾病相关和与疾病无关的因素的功能连接变异的中位数差异以及残差和同一受试者变异之间的关系,应用了自助法。对于BMB和SRPBS旅行受试者数据集,残差被重新采样1000次,同时保留受试者结构,并使用与原始数据完全相同的过程为每个重新采样的数据集计算功能连接变异。对于疾病数据集通过从年龄和性别匹配的健康和患者组中分别抽取样本来创建1000个重新采样的数据集,并以与原始数据相同的方式计算组间的绝对平均差异。为了校正偏差,将自助分布的均值调整为与原始数据一致,然后在功能连接变异的中位数差异以及残差和同一受试者变异之间的关系上进行统计评估。为了比较两个直方图之间的差异,应用了双样本Kolmogorov-Smirnov检验。
功能连接变异的可视化
为了研究不同因素影响的大脑区域和网络,将功能连接变异映射到标准大脑(MNI152)和Yeo的七个功能网络上。在区域级可视化(见图2(c)为例)中,特定大脑区域的成像值是通过计算该特定大脑区域与所有其他区域之间的所有连接的平均幅度获得的。在网络级可视化(见图2(d)为例)中,每个Glasser划分被分配到Yeo的七个网络之一或皮下区域,并在这些网络内和网络间平均连接值。
图2 基于Glasser多模态划分(MMP)图谱对Brain/Minds Beyond(BMB)旅行受试者数据集的FC变异分析。研究者应用了一个包含三个因素的线性固定效应模型来研究参与者(73名受试者)、成像协议(三种协议)和扫描仪(六种扫描仪)因素以及未建模的残差成分(基于单独计算的受试者内FC变异来表征)对BMB旅行受试者数据集的功能连接变异的影响。(a) 受试者、扫描仪、协议、残差成分以及受试者内因素导致的功能连接变异幅度的分布。每个小提琴图汇总了跨越71631个连接的全脑功能连接变异。每个小提琴图上方显示了每个分布的中位数值。(b) 残差成分与受试者内变异之间的连接模式相似性比较。每个点对应一个连接。(c) 由于受试者、受试者内、残差、扫描仪和成像协议因素导致的功能连接变异的大脑映射。(d)使用Yeo的7网络划分总结的功能连接变异的大脑网络。所有报告的数值均以Fisher-z变换的皮尔逊相关系数表示。
功能连接变异对多变量功能连接生物标志物输出的影响分析
为了理解多变量功能连接生物标志物在个体水平分类中的有效性背后的机制,分析了归因于与疾病无关和疾病相关因素的功能连接变异对生物标志物结果的影响。更具体地说,研究使用了之前确定的MDD、ASD和SCZ生物标志物的权重参数,评估了来自BMB旅行受试者数据集的受试者、成像协议、扫描仪和同一受试者变异以及来自SRPBS多障碍数据集的疾病因素的功能连接变异。每个精神病障碍的生物标志物由100个线性分类器的集成组成,每个分类器都使用部分重叠但不同的子样本数据进行训练,使用最小绝对收缩和选择算子(LASSO)算法和使用MMP图谱计算的功能连接向量。每个分类器的输出是一个标量值,表示存在该障碍的可能性,最终决策值是通过平均所有100个分类器的输出获得的。为了澄清,如果研究用表示第 n 个分类器的权重参数,用 x 表示受试者的功能连接向量,那么最终决策值计算为
其中
表示每个单独分类器的决策值。因此,每个分类器的输出是多个功能连接值的加权线性求和(WLS),称之为WLS-FC。首先通过评估功能连接变异的幅度分布来研究LASSO算法选择的功能连接,以评估机器学习算法的特征选择偏好。鉴于LASSO算法在参数权重优化过程中执行特征选择,关注了在100个分类器中频繁选择的功能连接,并基于MDD、ASD和SCZ生物标志物的平均选择功能连接数量(分别为49、54.2和53.7)选择了最频繁选择的前50个功能连接。为了进行比较,对LASSO选择的连接的功能连接变异分布和最大的50个疾病相关连接的功能连接变异分布进行了双样本Kolmogorov-Smirnov检验。其次,分析了归因于受试者、扫描仪、成像协议、同一受试者和精神病障碍因素的WLS-FC变异(即生物标志物结果的变异),这些变异是为每个单独分类器的输出以及集成平均后的输出计算的。要计算与特定因素相关的WLS-FC变异,需要该因素每个成员的功能连接偏差向量。功能连接偏差向量的每个元素由一个有符号标量值定义,表示该因素内成员的平均值的偏差。例如,受试者因素的功能连接偏差是通过从每个受试者的估计值中减去受试者平均的beta估计值来计算的。成像协议和扫描仪相关的功能连接偏差以相同的方式计算。疾病相关的功能连接偏差是通过计算组平均值之间的差异来计算的。同一受试者功能连接偏差是通过汇总每个受试者的同一受试者功能连接偏差来计算的,每个受试者的同一受试者功能连接偏差是通过从每个运行的功能连接数据中减去运行平均功能连接来获得的。随后,通过取WLS-FC偏差的标准差来计算WLS-FC变异,WLS-FC偏差是通过将功能连接偏差向量投影到由分类器权重定义的生物标志物空间上获得的。
3 结果
BMB旅行受试者数据集的功能连接变异分析
研究应用了一个三因素线性固定效应模型来研究参与者、成像协议和扫描仪因素以及未解释的残差成分对BMB旅行受试者数据集的FC变异的影响。图2(a)展示了使用Glasser的多模态划分(MMP)图谱计算的所有连接(71,631个连接)的FC变异幅度分布。参与者、协议和扫描仪因素的中位数(5%–95%百分位)分别为0.107(0.066–0.192)、0.016(0.004–0.042)和0.0259(0.012–0.055),而未解释残差的中位数(0.160(0.146–0.183))大于上述三个因素(图2(a))。参与者因素(个体差异)的分布较宽,而协议、扫描仪和残差因素的分布较窄。任何一对因素的中位数值均显著不同(自助检验p < 0.001,补充图1)。为了阐明归因于未解释残差的FC变异的来源,基于连接模式相似性(即残差与受试者内FC变异模式之间的秩相关性)研究了其与受试者内跨运行变异之间的关联。观察到残差与受试者内FC变异之间存在强关联(相关系数:0.71,自助检验p < 0.001,图2(b))。受试者内FC变异的中位数幅度小于残差(0.138对0.160,分别),表明另一个未知因素对残差成分有贡献(图2(a))。即使在用于计算残差成分的数据(595次运行,42名受试者)和受试者内变异的数据(201次运行,31名受试者)完全分离的情况下,也观察到这种强关联(秩相关性=0.57),表明相当一部分残差成分效应可以用受试者内FC变异来解释,表明相当一部分残差成分效应可以用受试者内FC变异来解释。
随后,研究了受每个因素影响的大脑区域和网络。在大脑区域水平上,参与者因素在额叶和顶叶区域表现出较大效应,而整个大脑(尤其是视觉、体感和运动皮层)均观察到较大的受试者内变异。相对较大的协议相关变异位于大脑的前部和下部,包括眶额叶皮质、直回和嗅觉区域。相对较大的扫描仪相关变异观察于大脑的顶部和底部,即上额叶回和小脑(图2(c))。在大脑网络水平上,涉及背侧注意、额顶和默认模式网络的连接中观察到较大的参与者相关变异。相比之下,受试者内变异在体感运动、视觉和背侧注意网络相关连接中较为突出(图2(d))。
为了表征两个成像协议或扫描仪在FC空间中的差异,定义它们之间的距离为所有连接上相应估计参数向量之间的平均绝对差。观察到HARP协议和SRPBS协议之间以及SRPBS和CRHD协议之间的距离较大,这与MR750W扫描仪(GE)和其他西门子扫描仪之间的距离较大一致。
SRPBS旅行受试者数据集的功能连接变异分析
为了评估与上述发现的共同点和差异,将相同的分析应用于SRPBS旅行受试者数据集,使用包含参与者和扫描仪因素的双因素线性固定效应模型。
图3(a)和(b)展示了使用Glasser的MMP图谱计算的所有连接(71,631个连接)的FC变异幅度分布以及残差成分与受试者内FC变异之间的关联。参与者和扫描仪因素的中位数(5%–95%百分位)分别为0.080(0.038–0.158)和0.037(0.019–0.071),而残差成分的中位数(0.156(0.138–0.189))最大。参与者因素的分布比其他因素更宽。残差和受试者内变异之间观察到高连接模式相似性(相关系数:0.69,自助检验p < 0.001),受试者内变异的中位数幅度小于残差(0.133对0.160,分别)。任何一对因素的中位数值均显著不同(自助检验p < 0.001)。这些结果与BMB旅行受试者数据集分析的结果一致(图2(a),(b))。
图3 基于Glasser多模态分区图谱的脑科学研究战略计划旅行被试数据集功能连接变异分析。本研究采用双因子线性固定效应模型分析SRPBS旅行被试数据集,以探究被试个体(9名受试者)与扫描仪(7台扫描仪)因素以及未建模残差成分对功能连接变异的影响。未建模残差成分通过单独计算的个体内功能连接变异进行表征。(a)被试个体、扫描仪、残差成分及个体内因素所致功能连接变异强度分布。每个小提琴图汇总了全脑71,631个连接的功能连接变异,图中上方标注各分布的中位数值。(b)残差成分与个体内变异在连接模式相似性上的比较。每个数据点对应一个连接。(c)被试个体、个体内、残差及扫描仪因素所致功能连接变异的脑区映射图。(d)采用Yeo 7网络分区总结的功能连接变异脑网络。所有报告数值均经过Fisher-z变换的皮尔逊相关系数表示。
随后,研究了受每个因素影响的大脑区域和网络。观察到与BMB数据集相似的趋势,但有一些例外;在小脑、丘脑和枕叶皮质观察到较大的受试者内变异,而扫描仪相关变异集中在大脑底部,特别是属于边缘网络的眶额叶皮质(图3(c),(d))。基于凝聚层次聚类计算的成对扫描仪距离矩阵和树状图显示,飞利浦Achieva和西门子扫描仪相似;然而,GE的Signa和MR750W扫描仪与西门子扫描仪之间的分离较大。
神经精神障碍组与健康对照之间的功能连接差异
该研究检查了MDD、ASD或SCZ患者组与健康对照(HC)之间的组级FC差异,以比较与疾病无关的因素(如成像协议、扫描仪、参与者和受试者内变异)的FC变异。
图4(a)展示了每种疾病的FC差异幅度分布。MDD、ASD和SCZ组的中位数(5%–95%百分位)分别为0.019(0.002–0.061)、0.020(0.002–0.062)和0.029(0.003–0.086),与扫描仪和成像协议因素的FC变异幅度相当。然而,检查每种分布的上尾部揭示了某些连接的显著效应;具体来说,MDD、ASD和SCZ组中分别约有0.5%、0.3%和2.3%的连接幅度超过0.1,这强调了准确生物标志物开发需要选择重要的疾病特异性连接。此外,与SCZ组相比,MDD和ASD组的FC差异较小,表明创建MDD和ASD精确生物标志物的挑战。将BMB旅行受试者数据集中50个最大疾病相关连接的疾病相关和与疾病无关的FC变异进行比较揭示了大多数连接中扫描仪和成像协议因素的幅度较小,而受试者内和参与者因素的幅度与疾病相关差异相当。
图4 重大抑郁症(MDD)、自闭症谱系障碍(ASD)及精神分裂症(SCZ)患者组与年龄性别匹配健康对照组之间疾病相关功能连接差异的比较。(a)疾病相关功能连接差异的强度分布。(b)疾病相关功能连接差异的脑区映射图。(c)采用Yeo 7网络分区总结的功能连接差异脑网络。(d)使用Yeo 7网络分区汇总的50个最显著功能连接变异。所有报告数值均代表经过Fisher-z变换的皮尔逊相关系数。
受每种疾病影响的大脑区域和网络如图4(b)、(c)所示。对于所有三种疾病,涉及丘脑的连接观察到较大幅度。对于MDD组,除了丘脑外,体感和运动区域也观察到较大的FC差异,这与PsyMRI联盟最近进行的广泛数据分析结果一致;然而,这与早期强调默认模式和额顶网络参与的研究相矛盾。对于ASD组,观察到涉及体感运动、腹侧注意、皮下和视觉网络的内部网络连接的较大FC差异。对于SCZ组,除了丘脑和体感运动区域外,还观察到涉及腹侧注意网络的内部和网络间连接的变化。总体而言,这些结果表明,扫描仪和成像协议因素对生物标志物开发的影响可能有限,而受试者内和参与者因素的影响可能更大,可能需要更加谨慎。
多变量功能连接生物标志物的信号-噪声增强的计算机制
个体差异(参与者因素)和受试者内变异在大多数连接处与疾病相关差异相当甚至更大,突出了开发允许个体水平分类的可靠单变量连接生物标志物的困难。然而,先前涉及机器学习算法的研究已经表明,多变量连接生物标志物可以促进个体水平分类。为了理解信号-噪声增强的计算机制,使用BMB旅行受试者数据中的与疾病无关的因素变异对MDD、ASD和SCZ生物标志物的影响进行了评估,使用之前开发的最小绝对收缩和选择算子(LASSO)集成分类器。该研究假设机器学习算法可以通过优化FC选择和权重来增强模型区分患者和HC的能力,同时抑制患者和HC内部的个体差异的影响。
该研究首先检查了使用集成LASSO方法训练的MDD生物标志物。为了进行比较,该研究考虑了一种简单的贪婪策略,即对50个最大的疾病相关连接进行平均,权重相等。集成LASSO分类器的分类性能,通过嵌套交叉验证评估,达到了大约0.68的平衡准确率,而贪婪策略的性能处于随机水平(图5(a))。LASSO分类器选择的前50个连接跨越了不同的功能网络,偏好体感运动和边缘网络内的连接。相比之下,贪婪算法选择的连接仅限于少数特定网络,如体感运动和皮下网络(图5(b))。LASSO选择的前50个连接的FC变异分布与50个最大的疾病相关连接的分布显著不同(两样本Kolmogorov-Smirnov检验,p < 0.001,图5(c))。LASSO算法并未限制其选择为疾病和健康对照(HC)组之间差异最大的50个功能连接。相反,它选择了受试者内和参与者变异相对较小的连接,这从与所有71,631个FC的分布比较中可以看出(无显著差异;p < 0.001,两样本Kolmogorov-Smirnov检验)。
图5 基于多变量连接生物标志物实现客观性重大抑郁症诊断的信噪比提升计算机制。采用既往研究开发的集成LASSO分类器与简单贪婪算法生物标志物,评估了非疾病因素与疾病因素所致功能连接变异对MDD诊断生物标志物输出的影响。其中非疾病变异源自BMB旅行数据集(图2),而MDD相关变异源自SRPBS多疾病数据集(图4)。(a) 集成LASSO(上图)与贪婪算法生物标志物(下图)的性能表现。(b) 集成LASSO(上图)与贪婪算法生物标志物(下图)筛选的前50个功能连接。(c) 集成LASSO(上图)与贪婪算法生物标志物(下图)的功能连接变异特征图。前50个LASSO筛选连接的功能连接变异分布(上图)以及前50个贪婪算法筛选连接的变异分布(下图)均叠加显示在全脑71,631个功能连接的总体变异分布图上。星号(*)表示统计显著性(p< 0.001,双样本Kolmogorov-Smirnov检验),分别对应三组比较:LASSO前50连接与全连接分布、贪婪算法前50连接与全连接分布、以及两种方法前50连接之间的分布差异。(d) 功能连接变异对MDD生物标志物输出的影响。深色填充柱表示贪婪算法生物标志物,浅色柱群表示集成LASSO生物标志物在均值整合前后的输出(误差线代表100个分类器间的标准差)。(e) 信噪比比较。信噪比通过疾病变异强度除以非疾病变异强度之和进行估算。"原始":全脑71,631个功能连接的信噪比分布;"前50疾病相关功能连接":贪婪算法筛选前50连接的平均信噪比;"前50 LASSO筛选功能连接":LASSO筛选前50连接的平均信噪比;"单分类器输出":集成平均前LASSO分类器输出的信噪比;"集成平均输出":集成平均后LASSO分类器输出的信噪比。
随后,评估了与疾病无关和疾病相关因素的变异对加权线性求和FC(WLS-FC)的影响。对于贪婪策略,受试者内和参与者因素的WLS-FC变异大于MDD相关变异(图5(d),深色条)。这一结果与观察到的个体水平分类的随机水平准确性一致。另一方面,LASSO分类器显著减少了与疾病无关因素的影响:受试者内和参与者因素的变异不到MDD相关变异的一半,而扫描仪和协议因素的变异约为MDD相关变异的十分之一(图5(d),亮色条,误差条)。集成平均进一步抑制了变异,特别是对于参与者和受试者内因素(图5(d),亮色条)。为了定量估计信号改善,将每个FC或分类器输出的信噪比(SNR)估计为疾病相关差异除以参与者、受试者内、扫描仪和成像协议变异的总和(图5(e))。从每个单独FC(71,631个FC)估计的SNR分布范围从3.8×10⁻⁷到0.48,中位数为0.064。前50个疾病相关FC和前50个LASSO选择的FC的平均SNR分别为0.365(±0.063)和0.269(±0.080)。LASSO分类器输出在集成平均前后的SNR估计值分别为0.742(±0.132)和0.965。因此,与整个71,631个FC的中位数SNR相比,集成LASSO分类器提高了15倍的SNR,与贪婪策略相比提高了2.6倍。对于ASD和SCZ生物标志物也获得了类似的结果。
总之,通过以下三种机制实现了集成LASSO生物标志物的SNR提高:首先,选择具有较大疾病效应和适度参与者或受试者内变异的FC;其次,通过空间加权平均选择的FC显著减少了参与者和受试者内变异;第三,100个LASSO分类器的集成进一步减少了变异。在这里粗略量化了这三种因素对MDD生物标志物SNR提高的贡献。首先,前50个LASSO选择的FC的SNR是整个71,631个FC的中位数SNR的3.9倍。其次,LASSO分类器的线性加权求和通过加权空间平均提高了2.9倍的SNR;这让人想起统计物理学中的遍历性质,但与该研究的情况相反,即用空间平均代替时间平均。第三,集成平均提高了1.3倍。总共,整个过程提高了15倍的SNR。这些结果在使用SRPBS旅行受试者数据集中的非疾病因素时保持一致,并且在分析在更严格的头动控制下计算的FC时也保持一致。
机器学习算法可以通过优化连接权重来最大化疾病相关差异,同时抑制个体差异。与该研究的预期相反,观察到受试者内变异的影响被抑制了,尽管在训练数据中没有关于这种变异的明确信息,即在生物标志物开发的发现队列中没有包括来自个体参与者的多次扫描;然而,这种效应可能是由于受试者内变异在受试者之间存在某种共性。尽管受试者内和参与者变异的影响被减少,但这两个因素的幅度仍然大于扫描仪和成像协议变异的幅度。这一观察结果突出了进一步减少个体差异和受试者内变异的影响的挑战,以创建更稳健和精确的生物标志物,这对于精准医疗应用至关重要。应对这一挑战将需要未来研究中创新的实验和分析方法。一种可能的进展是整合SRPBS和BMB数据集以形成大数据集进行生物标志物发现。扩展的数据集大小将允许通过集成稀疏分类器选择更多的FC。增加的FC数量将提高在区分疾病效应和无关变异方面的SNR,从而产生更可靠、更具普适性、更精确且更适用的生物标志物。
4 讨论
本研究对各种因素对FC和基于机器学习的生物标志物输出的影响进行了全面和定量的评估。精心设计的线性固定效应建模揭示了受试者因素对FC变异的影响是扫描仪和成像协议因素的数倍,而未解释残差成分的影响甚至更大。受试者变异的分布跨越连接较宽,而其他三种变异类型的分布在两个旅行受试者数据集中均较窄,当使用基于体积的解剖划分(BrainVISA图谱,137个区域,不包括小脑)计算FC值时,结果类似。参与者因素的较大贡献与另外两项旅行受试者研究的结果一致。这是首次将测量偏差分解为成像协议和扫描仪因素的研究,揭示了扫描仪相关的FC变异略大于成像协议相关的FC变异。BMB数据集中参与者因素的影响大于SRPBS数据集,可能是因为前者数据集中受试者人口统计学的变异性更大。例如,SRPBS旅行受试者数据集仅包括年轻的成年男性,而BMB数据集包括20多岁到60多岁的男性和女性。无法用线性固定效应模型解释的残差成分的FC变异最大。BMB和SRPBS数据集中残差变异与总变异的比率分别为69%和64%,与之前研究中归因于未解释残差成分的60%到80%的比率一致。然而,之前的研究并未详细调查残差成分。本研究清楚地显示了残差成分与受试者内变异的相关性(图2、3(a)),通过它们之间的高连接模式相似性。即使在用于计算残差成分和受试者内变异的数据完全分离时,这一结果仍然成立。这些结果表明,观察到的未解释残差成分的大比例反映了受试者内FC变异。重要的是要注意,这里的受试者内变异包括不同天之间的变异,因为每个参与者的数据平均跨越大约8周的两天实验,每天三次运行。通过从每个运行的数据中减去特定天的FC模式(平均三次运行)来确定参与者的当天内变异。当前研究中参与者内的当天内FC变异与受试者内跨运行FC变异共享类似的连接模式,尽管幅度有所降低。
受试者、成像协议、扫描仪和受试者内FC变异的大脑映射揭示了每个因素影响的大脑区域的明显模式,有一些重叠。例如,受试者FC变异在与默认模式、背侧注意和额顶网络相关的大脑区域较大,而受试者内FC变异在体感运动、视觉和背侧注意网络较大。这些明显模式在BMB和SRPBS数据集中均观察到,与之前的研究一致。较大的成像协议和扫描仪相关的FC变异主要观察于大脑的顶部和底部,尽管每个因素的详细模式略有不同。较大的成像协议FC变异观察于大脑的前部和下部,包括眶额叶皮质、直回和嗅觉区域,而较大的扫描仪相关FC变异观察于上额叶回和小脑;在SRPBS数据集中,前额叶部分的FC变异也较高,类似于之前报告的扫描仪差异。
将疾病相关因素与受试者、受试者内、扫描仪和成像协议因素的FC变异进行比较(图4)对于精神病生物标志物开发具有特别重要的意义。首先,一小部分连接在患者和HC之间表现出显著的组间差异。例如,与SCZ相关的功能连接的数量和幅度比与MDD和ASD相关的功能连接更大,表明开发准确的MDD和ASD生物标志物可能更具挑战性。其次,疾病相关的FC差异与个体差异和受试者内变异相当,甚至在关注具有最大疾病相关差异的50个连接时也是如此。聚合多个连接对于在个体水平上区分患者和HC至关重要。第三,对于大多数与MDD、ASD和SCZ相关的连接,成像协议相关的FC差异幅度较小,除了围绕体感运动区域的几个与MDD相关的连接。因此,成像协议相关的FC差异对生物标志物开发的影响可能有限。这一发现尤为重要,因为它表明有可能整合来自两个不同全国性项目(SRPBS和BMB)的数据集,使基于机器学习的生物标志物开发能够使用包含大约10,000个样本的组合数据集。
SNR估计与之前研究中调查的测试-重测可靠性概念密切相关。根据之前关于测试-重测可靠性和有效性的研究,可以计算可靠性度量作为参与者相关变异与参与者相关和受试者内变异总和的比率。这个度量代表了个体识别任务中信号-噪声比(SNR)的一种形式,其中个体差异作为信号,受试者内变异作为噪声。类似地,多中心生物标志物分类任务的可靠性可以估计为疾病相关变异与包括疾病相关和与疾病无关成分在内的总变异的比率——一个在概念上与SNR估计相似的表达。
对之前使用集成LASSO算法开发的多连接生物标志物输出的影响的调查揭示了个体差异和受试者内FC变异可以通过自动选择的FC的最优权重和集成平均来减少。归因于个体差异的影响减少是预期的,因为机器学习算法试图减少组内变异,同时增加组间变异(疾病和HC组之间的差异)。然而,受试者内变异的影响减少令人惊讶,因为训练数据中没有关于这种变异的明确信息,即在生物标志物开发的发现队列中没有包括来自个体参与者的多次扫描;然而,这种效应可能是因为受试者内变异在受试者之间存在某种共性。尽管个体差异和受试者内变异的影响减少,但这两个因素的幅度仍然大于扫描仪和成像协议变异的幅度。这一观察结果突出了进一步减少个体差异和受试者内变异的影响的挑战,以创建更稳健和精确的生物标志物,这对于精准医疗应用至关重要。应对这一挑战将需要未来研究中创新的实验和分析方法。一种可能的进展是整合SRPBS和BMB数据集以形成大数据集进行生物标志物发现。扩展的数据集大小将允许通过集成稀疏分类器选择更多的FC。增加的FC数量将提高在区分疾病效应和无关变异方面的SNR,从而产生更可靠、更具普适性、更精确且更适用的生物标志物。
本研究存在一些局限性。首先,该研究的研究基于健康个体的数据估计与疾病无关的因素,可能无法完全捕捉临床人群的变异性。其次,使用统计模型进行因素分解仅限于线性建模,且只有少数几个因素。尽管可能希望包括非线性效应(如成像协议和扫描仪类型之间的交互作用)或包括其他因素,但这种纳入会使解释矩阵复杂化,并可能危及每个因素统计估计的有效性。尽管努力用已知因素解释数据变异,但仍有相当一部分无法解释。第三,图5的SNR值仅为粗略估计。该研究假设四个与疾病无关的因素为噪声,以及这四个因素之间相互独立。此外,信号估计可能被高估,因为使用相同的数据集开发分类器并评估生物标志物输出的疾病相关差异。然而,这种高估不预期会影响LASSO生物标志物和前50个疾病相关FC之间的SNR比较。第四,该研究的分析基于10分钟的rsFC试验。实验持续时间显著影响rsFC的测试-重测可靠性,因此随着试验持续时间的增加,受试者内变异的程度应该会减少。第五,FC分析基于单一频带(0.01–0.08 Hz)。最近的一篇综述论文强调了基于自然对数线性定律的多频带频率分析的重要性,并提出了一个新的理论框架,考虑了频率特异性大脑动态的层次结构。这种方法为未来基于功能连接的生物标志物研究提供了一个有希望的途径。第六,没有为HARP和CRHD协议实施专门优化的预处理流程。更先进的预处理技术已被提议用于这些协议获取的数据,这些技术可能会进一步提高生物标志物的性能。未来的研究应该探索预处理对FC变异的影响。
总之,本研究提供了各种因素对FC和基于机器学习的生物标志物输出的影响的全面和定量理解。研究还展示了从多个角度表征每个FC变异的好处,不仅包括疾病相关的差异,还包括与疾病无关的变异,例如归因于参与者、受试者内、成像协议和扫描仪因素的变异。这种全面的方法对于推进更稳健、更具普适性和更准确的生物标志物的开发至关重要。
精读分享
1. 研究背景
静息态功能连接(rsFC)在开发精神障碍生物标志物方面显示出巨大潜力。然而,开发可靠且实用的功能连接(FC)生物标志物仍然是一个未实现的目标,特别是在个体水平上具有普适性、鲁棒性和准确性的生物标志物。本研究提出了一种新方法,从多个角度分析功能连接,包括与疾病相关的差异和与疾病无关的变异(如个体差异、受试者内跨运行变异、成像协议和扫描仪因素)。研究利用来自84名旅行受试者(跨越29个站点)的1500多次10分钟静息态数据和900名参与者的病例对照研究数据(涵盖三种精神障碍),评估了疾病相关和与疾病无关的功能连接变异对多中心数据训练的多变量功能连接生物标志物输出的影响。
2. 研究方法
2.1 数据来源与参与者
研究使用了两个全国性项目(Brain/Minds Beyond, BMB 和 Strategic Research Program for Brain Sciences, SRPBS)的数据,包括84名旅行受试者和900名参与者的病例对照研究数据。数据涵盖了三种精神障碍:抑郁症(MDD)、精神分裂症(SCZ)和自闭症谱系障碍(ASD)。
2.2 神经影像分析流程
静息态fMRI数据预处理:使用fMRIPrep 1.0.8进行标准预处理,包括头动校正、切片时间校正、共配准、失真校正等。
功能连接计算:使用Glasser的多模态划分(MMP)图谱计算全脑功能连接矩阵,涉及379个感兴趣区域(ROI)。
功能连接变异分析:使用线性固定效应模型评估受试者、成像协议、扫描仪和残差成分对功能连接变异的影响。
2.3 统计方法与模型
线性固定效应模型:用于估计每个连接的功能连接变异,包括受试者、成像协议、扫描仪和残差成分。
多变量功能连接生物标志物:使用最小绝对收缩和选择算子(LASSO)集成分类器开发生物标志物,评估其在多中心数据上的泛化能力。
3. 研究结果
3.1 功能连接变异分析
BMB旅行受试者数据集:受试者因素(个体差异)对功能连接变异的影响最大,中位数为0.107;协议和扫描仪因素的影响较小,分别为0.016和0.0259。残差成分的影响最大,中位数为0.160。受试者内跨运行变异与残差成分高度相关(相关系数0.71)。
SRPBS旅行受试者数据集:结果与BMB数据集类似,受试者因素的中位数为0.080,扫描仪因素为0.037,残差成分最大,中位数为0.156。
3.2 疾病相关功能连接差异
MDD、ASD和SCZ组:与健康对照组相比,疾病相关功能连接差异的中位数分别为0.019、0.020和0.029。SCZ组的功能连接差异最大,表明开发MDD和ASD生物标志物更具挑战性。
受影响的大脑区域和网络:MDD组主要涉及丘脑、体感和运动区域;ASD组涉及体感运动、腹侧注意、皮下和视觉网络;SCZ组涉及丘脑、体感运动区域和腹侧注意网络。
3.3 多变量功能连接生物标志物的信号-噪声增强机制
LASSO分类器:通过选择具有较大疾病效应和较小个体差异的功能连接,显著提高了生物标志物的信号-噪声比(SNR)。LASSO分类器的SNR比整个71,631个功能连接的中位数SNR提高了15倍。
集成平均:进一步抑制了受试者内和个体差异的影响,提高了生物标志物的鲁棒性和准确性。
4. 讨论与结论
本研究全面评估了各种因素对功能连接和基于机器学习的生物标志物输出的影响,揭示了个体差异和受试者内变异对功能连接变异的显著影响。通过优化功能连接的选择和权重,LASSO分类器显著提高了生物标志物的信号-噪声比,使其适用于临床应用。未来的研究需要进一步减少个体差异和受试者内变异的影响,以开发更稳健和精确的生物标志物。此外,整合大规模数据集(如SRPBS和BMB)将有助于提高生物标志物的泛化能力和准确性。
参考文献
Yamashita O, Yamashita A, Takahara Y, et al. Computational mechanisms of neuroimaging biomarkers uncovered by multicenter resting-state fMRI connectivity variation profile[J]. Molecular Psychiatry, 2025: 1-12.
解读:王淳
审核:吴金颖