The goal of policy learning is to train a policy function that recommends a treatment given covariates to maximize population welfare. There are two major approaches in policy learning: the empirical welfare maximization (EWM) approach and the plug-in approach. The EWM approach is analogous to a classification problem, where one first builds an estimator of the population welfare, which is a functional of policy functions, and then trains a policy by maximizing the estimated welfare. In contrast, the plug-in approach is based on regression, where one first estimates the conditional average treatment effect (CATE) and then recommends the treatment with the highest estimated outcome. This study bridges the gap between the two approaches by showing that both are based on essentially the same optimization problem. In particular, we prove an exact equivalence between EWM and least squares over a reparameterization of the policy class. As a consequence, the two approaches are interchangeable in several respects and share the same theoretical guarantees under common conditions. Leveraging this equivalence, we propose a regularization method for policy learning. The reduction to least squares yields a smooth surrogate that is typically easier to optimize in practice. At the same time, for many natural policy classes the inherent combinatorial hardness of exact EWM generally remains, so the reduction should be viewed as an optimization aid rather than a universal bypass of NP-hardness.


翻译:政策学习的目标是训练一个策略函数,使其能够根据协变量推荐处理方案,以最大化总体福利。政策学习主要有两种方法:经验福利最大化(EWM)方法和插件方法。EWM方法类似于分类问题,首先构建总体福利的估计量(该估计量是策略函数的泛函),然后通过最大化估计的福利来训练策略。相比之下,插件方法基于回归,首先估计条件平均处理效应(CATE),然后推荐具有最高估计结果的方案。本研究通过证明这两种方法本质上基于相同的优化问题,弥合了它们之间的鸿沟。具体而言,我们证明了EWM与在策略类重新参数化下的最小二乘法之间存在精确等价性。因此,这两种方法在多个方面可以互换,并在常见条件下共享相同的理论保证。利用这一等价性,我们提出了一种用于政策学习的正则化方法。通过转化为最小二乘问题,我们得到了一个平滑的替代目标,这在实际中通常更易于优化。同时,对于许多自然的策略类,精确EWM固有的组合难度通常仍然存在,因此这种转化应被视为一种优化辅助手段,而非对NP难问题的普遍规避。

0
下载
关闭预览

相关内容

【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
专知会员服务
28+阅读 · 2021年5月24日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员