Intelligent agents equipped with causal knowledge can optimize their action spaces to avoid unnecessary exploration. The structural causal bandit framework provides a graphical characterization for identifying actions that are unable to maximize rewards by leveraging prior knowledge of the underlying causal structure. While such knowledge enables an agent to estimate the expected rewards of certain actions based on others in online interactions, there has been little guidance on how to transfer information inferred from arbitrary combinations of datasets collected under different conditions -- observational or experimental -- and from heterogeneous environments. In this paper, we investigate the structural causal bandit with transportability, where priors from the source environments are fused to enhance learning in the deployment setting. We demonstrate that it is possible to exploit invariances across environments to consistently improve learning. The resulting bandit algorithm achieves a sub-linear regret bound with an explicit dependence on informativeness of prior data, and it may outperform standard bandit approaches that rely solely on online learning.


翻译:具备因果知识的智能体能够优化其行动空间,以避免不必要的探索。结构因果赌博机框架通过利用底层因果结构的先验知识,为识别无法最大化奖励的行动提供了图形化表征。尽管此类知识使智能体能够基于在线交互中其他行动来估计特定行动的期望奖励,但关于如何迁移从不同条件(观测性或实验性)下收集的任意数据集组合以及异构环境中推断出的信息,目前仍缺乏指导。本文研究了具有可迁移性的结构因果赌博机,其中源环境的先验信息被融合以增强部署环境中的学习效果。我们证明,可以利用跨环境的不变性持续改进学习过程。所提出的赌博机算法实现了次线性遗憾界,其显式依赖于先验数据的信息量,并且可能优于仅依赖在线学习的标准赌博机方法。

0
下载
关闭预览

相关内容

专知会员服务
112+阅读 · 2020年6月26日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员