现代机器学习方法的成功可归因于三个主要因素:(i)高质量数据的持续增长,(ii)计算资源的持续扩展,以及(iii)能够同时利用这两者优势的算法创新——这些算法被专门设计来高效利用海量数据并在前沿硬件上运行。在本论文中,我们聚焦于其中的第一个要素——数据质量,并将其置于机器学习(ML)与因果推理交叉的研究领域中进行探讨。


因果推理与数据质量

因果推理旨在对“因与果”这一古老问题进行精确的数学刻画,为干预(intervention)、反事实(counterfactual)及有效因果推断提供形式化的推理框架。图模型因果推理(graphical causal inference)——本论文的研究场景——通过有向图表示因果系统,其中箭头从“原因”指向“结果”。这种表示不仅是直观的可视化方式,更是一类统计模型,能够用于预测在对变量施加干预后分布的变化。因此,它们特别适合用于分析数据质量问题,因为统计偏差可以视作在这些模型中对变量进行干预或条件化的结果。


因果机器学习的双向融合

因果机器学习(causal machine learning)最初的目标是利用机器学习方法来解决因果推理中的问题,特别是在现代机器学习擅长的高维和大规模数据场景中。随后,研究方向开始反转:研究者尝试利用因果推理来解决机器学习自身存在的一些缺陷,其中一个核心问题正是数据质量。这些研究旨在理解如何使机器学习模型具备更好的泛化能力,能够超越训练数据的限制。 在本论文的前半部分,我们重点研究机器学习在经典因果问题中面临的数据质量挑战,并呈现两篇相关研究: 1. 观测数据中的因果效应估计问题: 我们探讨了当观测研究受到潜在未测量混杂(unmeasured confounding)影响时,如何利用少量实验数据来校正(de-bias)估计结果。论文给出了此类方法有效性的理论上限,并在高斯过程(Gaussian Process)假设下提供了可行的有效推断框架。 1. 因果效应估计中的数据合并问题: 我们将其表述为一个贝叶斯实验设计(Bayesian experimental design)问题,并提出了一种加密安全(cryptographically secure)的方法,用于计算预期信息增益,从而改进条件因果效应的估计。


因果视角下的算法公平性

接着,我们将研究焦点转向另一个关键问题:因果推理如何改进算法公平性(algorithmic fairness)。 **公平机器学习(Fair Machine Learning)**旨在研究如何使机器学习模型在决策情境(如就业、刑事司法、医疗健康)中符合法律上的反歧视要求。为此,研究者尝试以数学方式形式化这些要求被违反的情形。早期研究主要通过度量统计差异(例如按群体划分的模型性能)来识别潜在的歧视。然而,这种做法存在两个核心问题: 1. 对于每一种统计指标,总可以构造出一个案例,使得即使指标显示存在/不存在歧视,直觉上却得出相反的结论; 1. 在多数实际场景中,不可能同时对多个统计指标都保持“公平”。

这些问题导致单一统计指标无法完整刻画公平性问题,而多指标间又相互矛盾。为此,研究者提出了**因果公平性(causal fairness)的概念,试图通过赋予公平性指标以因果语义来解决这一困境。在该框架下,歧视被视为受保护属性对结果的因果效应。这一视角推动了大量新的公平性度量方法的提出,而这些方法的定义取决于具体的因果上下文。 本论文在因果公平性领域中贡献了两篇研究: 1. 选择偏差(selection bias)问题: 我们指出在公平机器学习的实际应用中,选择偏差几乎总是存在。进一步地,我们证明了这会导致大多数因果效应在仅依赖观测数据的情况下无法被识别,从而给整个领域带来根本性挑战。 1. 测量偏差(measurement bias)与数据质量: 我们从因果视角出发,提出了一个统一的因果框架,用于分析公平机器学习中常见的多种测量偏差。随后,我们利用因果敏感性分析(causal sensitivity analysis)**方法,设计了一套通用工具,用以量化测量偏差对公平性评估的影响。


结论与展望

论文最后总结了上述研究的局限性,并提出未来的研究方向,包括: * 提升在因果公平性情境下的可识别性与鲁棒性; * 发展更具表达力的生成模型用于因果数据增强; * 构建结合符号推理与深度学习的混合因果框架; * 探索跨领域数据整合与隐私保护的因果建模方法。

这些方向不仅有助于改善机器学习中的数据质量问题,也为实现更可信、更公平的智能决策系统奠定了基础。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETZH博士论文】语言模型编程
专知会员服务
23+阅读 · 6月14日
【CMU博士论文】以人为中心的机器学习:统计和算法视角
专知会员服务
40+阅读 · 2023年10月1日
专知会员服务
56+阅读 · 2020年12月20日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
172+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
488+阅读 · 2023年3月31日
Arxiv
177+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员