Stochastic shortest path (SSP) is a well-known problem in planning and control, in which an agent has to reach a goal state in minimum total expected cost. In this paper we present the adversarial SSP model that also accounts for adversarial changes in the costs over time, while the underlying transition function remains unchanged. Formally, an agent interacts with an SSP environment for $K$ episodes, the cost function changes arbitrarily between episodes, and the transitions are unknown to the agent. We develop the first algorithms for adversarial SSPs and prove high probability regret bounds of $\widetilde O (\sqrt{K})$ assuming all costs are strictly positive, and $\widetilde O (K^{3/4})$ in the general case. We are the first to consider this natural setting of adversarial SSP and obtain sub-linear regret for it.


翻译:最短的托盘路径(SSP)在规划和控制方面是一个众所周知的问题,在这种路径中,代理人必须达到一个最低预期总成本的目标状态。在本文中,我们介绍了对抗性SSP模式,该模式也反映了长期成本的对抗性变化,而基本过渡功能保持不变。形式上,代理人与SSP环境发生互动,出现K美元事件,费用函数在时间和过渡之间任意变化,代理商不知道。我们为对抗性SSP开发了第一个算法,并证明,假设所有成本都绝对是正数,而美元(sqrt{K})和美元(k ⁇ 3/4})在一般情况下为美元,则极有可能后悔。我们首先考虑对抗性SSP的自然环境,并为此获得亚线性遗憾。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
专知会员服务
45+阅读 · 2020年10月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员