Off-policy evaluation learns a target policy's value with a historical dataset generated by a different behavior policy. In addition to a point estimate, many applications would benefit significantly from having a confidence interval (CI) that quantifies the uncertainty of the point estimate. In this paper, we propose a novel procedure to construct an efficient, robust, and flexible CI on a target policy's value. Our method is justified by theoretical results and numerical experiments. A Python implementation of the proposed procedure is available at https://github.com/RunzheStat/D2OPE.


翻译:离政策评价以不同行为政策产生的历史数据集来学习目标政策的价值;除了点数估计外,许多应用将大大受益于一个信任间隔(CI),该间隔可以量化点数估计的不确定性;在本文中,我们提出一个新的程序,在目标政策的价值上构建一个高效、稳健和灵活的CI。我们的方法有理论结果和数字实验的正当理由。在https://github.com/RunzheStat/D2OPE上可以查阅拟议的程序的Python实施情况。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年6月26日
专知会员服务
17+阅读 · 2020年12月4日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年6月28日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员