科学研究的核心在于发现并验证变量间的因果关系。机器学习通过从数据观察中提出新假设,或通过设计能最大化成功率的实验,有望显著提升这一过程的效率。本论文采用务实的方法研究这些问题,旨在构建能够模拟复杂系统并融合丰富领域知识的算法。这些算法已应用于分子生物学及药物研发的实践案例,凸显了其在指导高效实验设计与自动化实验结果分析方面的潜力。
自17世纪以来,科学方法构成了系统性探索自然界的基础 [196]。观察引发问题,问题催生假设——这些可被实验检验和证伪的试探性解释。经典实验通过操控相关变量并检测预期结果是否出现,以验证单个假设。随着人类测量世界的能力不断拓展,科学方法的研究范畴也同步扩大。在生物学和化学领域,高通量实验能够并行测试成千上万个假设 [155, 174]。此时,驱动新假设发现的往往是实验本身而非初始问题。这些新的可能性也伴随着独特的挑战:现代实验的读数可能维度极高,以致对其结果的解读不再不言自明;同时,实验结果的分辨率可能较低,使得这些实验仅能用于缩减解释空间,而非完成验证。由于高通量方法规模庞大,数据分析成为显著瓶颈——这一负担要么落在科学家个体身上,要么转移至计算算法。因此,亟需能够将大规模数据集提炼为可操作见解的新方法。
从宏观层面看,许多值得进一步实验验证的假设本质上是因果性的。它们以“如果-那么”的形式呈现:前件可作为干预施于系统,而后件则可能被观察为结果。因此,本论文旨在通过从系统各组成部分的观测数据中推断其因果结构,并利用这些关系解释一组测量结果为何呈现特定形态,从而实现假设生成与验证的自动化。在进一步展开前,第1.1节将对因果结构的概念进行形式化界定,并通过分子生物学中的转录组学模式提供具体案例说明。后续章节将从建模与应用双重视角探讨三个核心问题:第二章关注因果发现任务,即从数据测量中推断因果关系;第三章聚焦干预目标预测,帮助科研人员识别如何调控系统以实现预期效应;第四章介绍利用已知因果关系指导新实验高效设计与分析的方法。本论文所有算法均受生物学开放问题启发并在其基础上验证,但它们普遍适用于由非完美测量表征的大规模系统。
本论文涵盖三大主题:如何从数据中推断因果结构(第二章);如何调控系统以达到预期状态(第三章);以及如何利用已知关系促进高效的实验设计与分析(第四章)。
现实系统中的因果发现 因果发现即从数据中推断因果结构的任务,尤其有助于从涉及扰动的生物学实验中揭示机制性见解。然而,针对大规模变量集的因果发现算法往往对模型误设或数据有限的情况表现脆弱。例如,单细胞转录组学可测量数千个基因,但其关系本质未知,且每个干预条件下的细胞数量可能仅有数十个。为应对这些挑战,我们提出一种受基础模型启发的思路:在大规模合成数据上训练监督模型,使其能够依据汇总统计量(如在变量子集上运行经典因果发现算法的输出,以及如逆协方差等其他统计线索)预测因果图。这一方法的可行性源于我们观察到发现算法输出中的典型误差在不同数据集间具有可比性。理论上,我们证明该模型架构具有良好的设定性,即能够恢复与子图一致的因果图。实证上,我们利用多样化数据集训练模型,使其对误设与分布偏移具有鲁棒性。在生物与合成数据上的实验证实,该模型能良好泛化至训练集之外,数秒内即可处理包含数百个变量的图结构,且易于适配不同的底层数据假设。
变化的内在动因识别 识别导致生物系统发生变化的变量,对于药物靶点发现和细胞工程等应用至关重要。给定一对观察数据集与干预数据集,目标是分离出作为干预目标的观测变量子集。直接应用因果发现算法面临挑战:数据可能包含数千个变量,而每个干预的样本量仅有数十个,且生物系统并不遵循经典的因果假设。为此,我们提出一种因果启发的实用方法。首先,利用第二章描述的框架,从观察数据与干预数据中推断带噪声的因果图;随后,学习将这些图之间的差异连同其他统计特征,映射到被干预的变量集合。这两个模块均在监督框架下,基于模拟及反映生物干预特性的真实数据进行联合训练。该方法在七个单细胞转录组数据集上的扰动建模任务中持续优于基线。同时,在各种合成数据上,其预测软干预与硬干预目标的表现也显著超越了当前因果发现方法。
从结构到解释 高内涵扰动实验使得科学家能够以前所未有的分辨率探索生物分子系统,但实验与分析成本构成了广泛应用的重大障碍。机器学习有望指导对扰动空间的高效探索,并从这些数据中提取新见解。然而,现有方法忽略了相关生物学的语义丰富性,其目标与下游生物学分析存在偏差。在本文中,我们假设大语言模型为表征复杂生物学关系及合理化实验结果提供了天然的媒介。我们提出了PerturbQA,一个用于对扰动实验进行结构化推理的基准。与当前主要检验已有知识的基准不同,PerturbQA的构建灵感来源于扰动建模中的开放问题:对未见扰动的差异表达与方向变化的预测,以及基因集富集分析。我们评估了用于建模扰动的最先进的机器学习与统计方法,以及标准的大语言模型推理策略,发现现有方法在PerturbQA上表现欠佳。作为可行性验证,我们引入了Summer(总结、检索与回答),一个简洁且融入领域知识的大语言模型框架,其性能达到或超越了当前最佳水平。
结语 通过这三项工作,本论文系统性地构建了一套从数据中发现因果、识别关键干预目标、并最终将结构知识转化为可解释见解的完整方法论框架。这些方法紧密贴合生物学实验的实际挑战与需求,不仅推动了因果机器学习在计算生物学中的应用边界,也为构建可解释、可干预的下一代科学发现系统奠定了基础。