Single-cell RNA sequencing technologies have revolutionized our understanding of cellular heterogeneity, yet computational methods often struggle to balance performance with biological interpretability. Embedded topic models have been widely used for interpretable single-cell embedding learning. However, these models suffer from the potential problem of interpretation collapse, where topics semantically collapse towards each other, resulting in redundant topics and incomplete capture of biological variation. Furthermore, the rise of single-cell foundation models creates opportunities to harness external biological knowledge for guiding model embeddings. Here, we present scE2TM, an external knowledge-guided embedded topic model that provides a high-quality cell embedding and interpretation for scRNA-seq analysis. Through embedding clustering regularization method, each topic is constrained to be the center of a separately aggregated gene cluster, enabling it to capture unique biological information. Across 20 scRNA-seq datasets, scE2TM achieves superior clustering performance compared with seven state-of-the-art methods. A comprehensive interpretability benchmark further shows that scE2TM-learned topics exhibit higher diversity and stronger consistency with underlying biological pathways. Modeling interferon-stimulated PBMCs, scE2TM simulates topic perturbations that drive control cells toward stimulated-like transcriptional states, faithfully mirroring experimental interferon responses. In melanoma, scE2TM identifies malignant-specific topics and extrapolates them to unseen patient data, revealing gene programs associated with patient survival.


翻译:单细胞 RNA 测序技术彻底改变了我们对细胞异质性的理解,然而计算方法常常难以在性能与生物学可解释性之间取得平衡。嵌入主题模型已被广泛用于可解释的单细胞嵌入学习。然而,这些模型存在解释性坍缩的潜在问题,即主题在语义上相互坍缩,导致冗余主题和对生物学变异的不完整捕获。此外,单细胞基础模型的兴起为利用外部生物学知识指导模型嵌入创造了机会。本文提出 scE2TM,一种外部知识引导的嵌入主题模型,为 scRNA-seq 分析提供高质量的细胞嵌入与解释。通过嵌入聚类正则化方法,每个主题被约束为独立聚合基因簇的中心,使其能够捕获独特的生物学信息。在 20 个 scRNA-seq 数据集上,与七种最先进方法相比,scE2TM 实现了更优的聚类性能。全面的可解释性基准测试进一步表明,scE2TM 学习的主题展现出更高的多样性,并与潜在生物学通路具有更强的一致性。在模拟干扰素刺激的 PBMCs 中,scE2TM 模拟了驱动对照细胞向刺激样转录状态转变的主题扰动,真实反映了实验中的干扰素响应。在黑色素瘤中,scE2TM 识别了恶性特异性主题,并将其外推至未见过的患者数据,揭示了与患者生存相关的基因程序。

0
下载
关闭预览

相关内容

【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【ICML2023】序列多维自监督学习的临床时间序列建模
专知会员服务
23+阅读 · 2023年7月22日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【ICML2023】序列多维自监督学习的临床时间序列建模
专知会员服务
23+阅读 · 2023年7月22日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员