Learning optimal policies from historical data enables personalization in a wide variety of applications including healthcare, digital recommendations, and online education. The growing policy learning literature focuses on settings where the data collection rule stays fixed throughout the experiment. However, adaptive data collection is becoming more common in practice, from two primary sources: 1) data collected from adaptive experiments that are designed to improve inferential efficiency; 2) data collected from production systems that progressively evolve an operational policy to improve performance over time (e.g. contextual bandits). Yet adaptivity complicates the optimal policy identification ex post, since samples are dependent, and each treatment may not receive enough observations for each type of individual. In this paper, we make initial research inquiries into addressing the challenges of learning the optimal policy with adaptively collected data. We propose an algorithm based on generalized augmented inverse propensity weighted (AIPW) estimators, which non-uniformly reweight the elements of a standard AIPW estimator to control worst-case estimation variance. We establish a finite-sample regret upper bound for our algorithm and complement it with a regret lower bound that quantifies the fundamental difficulty of policy learning with adaptive data. When equipped with the best weighting scheme, our algorithm achieves minimax rate optimal regret guarantees even with diminishing exploration. Finally, we demonstrate our algorithm's effectiveness using both synthetic data and public benchmark datasets.


翻译:从历史数据中学习最佳政策,使个人能够在广泛的各种应用中实现个性化,包括医疗保健、数字建议和在线教育。越来越多的政策学习文献侧重于数据收集规则在整个实验中保持不变的环境。然而,适应性数据收集在实践中越来越普遍,从两个主要来源开始:1)从旨在提高推论效率的适应性实验中收集的数据;2)从逐步制定行动政策以提高业绩的生产系统收集的数据(例如,背景强盗),但适应性使最佳政策识别在事后变得复杂,因为样本是依赖性的,每一种治疗都可能得不到足够的个人观察。在本文中,我们初步研究如何应对学习最佳政策与适应性收集的数据所面临的挑战。我们提出一种基于普遍增强反向偏差加权估测算法的算法,这种测算法不统一地调整标准AIPW测算法的要素,以控制最坏的估测差。我们为算法设定了限值上限,对每种处理方法可能得不到足够的观察结果加以补充。我们提出的初步研究调查调查是,以最差的限度来量化政策中最难度,我们用最差的测算法展示了最差的模型,同时用最差的模型展示了我们最差的精确的数据。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年1月13日
Adaptive Synthetic Characters for Military Training
Arxiv
50+阅读 · 2021年1月6日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
17+阅读 · 2018年12月10日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关资讯
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
相关论文
Arxiv
0+阅读 · 2023年1月13日
Adaptive Synthetic Characters for Military Training
Arxiv
50+阅读 · 2021年1月6日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
17+阅读 · 2018年12月10日
A Multi-Objective Deep Reinforcement Learning Framework
相关基金
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员