Accurate brain age estimation from structural MRI is a valuable biomarker for studying aging and neurodegeneration. Traditional regression and CNN-based methods face limitations such as manual feature engineering, limited receptive fields, and overfitting on heterogeneous data. Pure transformer models, while effective, require large datasets and high computational cost. We propose Brain ResNet over trained Vision Transformer (BrainRotViT), a hybrid architecture that combines the global context modeling of vision transformers (ViT) with the local refinement of residual CNNs. A ViT encoder is first trained on an auxiliary age and sex classification task to learn slice-level features. The frozen encoder is then applied to all sagittal slices to generate a 2D matrix of embedding vectors, which is fed into a residual CNN regressor that incorporates subject sex at the final fully-connected layer to estimate continuous brain age. Our method achieves an MAE of 3.34 years (Pearson $r=0.98$, Spearman $ρ=0.97$, $R^2=0.95$) on validation across 11 MRI datasets encompassing more than 130 acquisition sites, outperforming baseline and state-of-the-art models. It also generalizes well across 4 independent cohorts with MAEs between 3.77 and 5.04 years. Analyses on the brain age gap (the difference between the predicted age and actual age) show that aging patterns are associated with Alzheimer's disease, cognitive impairment, and autism spectrum disorder. Model attention maps highlight aging-associated regions of the brain, notably the cerebellar vermis, precentral and postcentral gyri, temporal lobes, and medial superior frontal gyrus. Our results demonstrate that this method provides an efficient, interpretable, and generalizable framework for brain-age prediction, bridging the gap between CNN- and transformer-based approaches while opening new avenues for aging and neurodegeneration research.


翻译:基于结构磁共振成像(sMRI)的精确脑龄估计是研究衰老与神经退行性疾病的重要生物标志物。传统的回归方法和基于卷积神经网络(CNN)的方法面临手动特征工程、感受野受限以及在异质数据上过拟合等局限。纯Transformer模型虽然有效,但需要大规模数据集和高计算成本。我们提出Brain ResNet over trained Vision Transformer(BrainRotViT),一种混合架构,结合了视觉Transformer(ViT)的全局上下文建模能力与残差CNN的局部细化能力。首先,ViT编码器在辅助的年龄和性别分类任务上进行训练,以学习切片级特征。随后,冻结的编码器被应用于所有矢状面切片,生成一个嵌入向量的二维矩阵,该矩阵被输入到一个残差CNN回归器中;该回归器在最后的全连接层纳入受试者性别信息,以估计连续的脑龄。我们的方法在涵盖超过130个采集站点的11个MRI数据集上进行验证,取得了3.34年的平均绝对误差(MAE)(皮尔逊相关系数$r=0.98$,斯皮尔曼相关系数$ρ=0.97$,决定系数$R^2=0.95$),性能优于基线模型和当前最先进的模型。该方法在4个独立队列中也表现出良好的泛化能力,MAE介于3.77至5.04年之间。对脑龄差(预测年龄与实际年龄之差)的分析表明,衰老模式与阿尔茨海默病、认知障碍和自闭症谱系障碍相关。模型的注意力图突出了与衰老相关的大脑区域,特别是小脑蚓部、中央前回与中央后回、颞叶以及内侧额上回。我们的结果表明,该方法为脑龄预测提供了一个高效、可解释且可泛化的框架,弥合了基于CNN和Transformer方法之间的差距,同时为衰老与神经退行性疾病研究开辟了新途径。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员