因果推断(Causal inference) 为推理与决策提供了一个强大的理论框架。然而,其大部分方法依赖于一些在现实应用中可能失效的假设——例如平行趋势(parallel trends)、完全可观测性(full observability)以及已知的因果结构(known causal structure)。本论文旨在发展新的因果方法学,以拓展在这些假设被破坏时的可行边界,研究工作涵盖因果识别理论、半参数估计、算法化实验设计以及结构学习等多个方面。
首先,我们针对面板数据与重复横截面数据的情境,提出了新的因果推断方法。在差分中的差分(Difference-in-Differences, DiD)框架的基础上,我们形式化了三重差分(Triple Difference)框架下的识别策略,并引入了一类鲁棒且高效的半参数估计器,该估计器能够与基于机器学习的干扰函数(nuisance function)估计器相兼容。随后,我们将经典的“变化中的变化”(Changes-in-Changes)模型推广到三重差分设定中,从而在高维结果变量的场景下仍可识别潜在结果分布。
接着,我们探讨了为了识别目标因果效应而设计实验的挑战。现有的识别理论回答了“在给定数据下,因果问题是否可识别”的问题。而当某个效应在现有数据下不可识别时,一个自然的后续问题是:需要哪些额外的数据或干预,才能使该效应变得可识别? 我们研究了如何设计最优(最低成本)的干预方案以实现可识别性。同时,我们提出了一个新的框架,用于在不确定的因果图结构(例如从数据中学习到的、边置信度各异的因果图)下进行因果效应识别,从而为在结构不确定时推理可识别性提供了一种系统化的方法。
最后,我们研究了在存在未观测混杂(unobserved confounding)、选择偏差(selection bias)以及非线性依赖的情形下的因果发现问题。首先,我们提出了 L-MARVEL ——一种基于约束的递归因果发现算法,该算法在理论上既完备(complete)又可靠(sound),并在所需条件独立检验次数上达到了当前已知的最优上界。随后,我们提出了一种基于最优传输(optimal transport)的新型因果发现方法,利用单调三角映射(monotone triangular maps),能够在不依赖强函数形式假设的情况下,从观测数据中推断因果结构。
关键词: 因果推断、三重差分、识别、估计、面板数据、实验设计、最优传输、因果发现、潜在混杂