![]()
 
   用于机器学习的贝叶斯方法已经被广泛研究,产生了将先验信息纳入推理算法的原则方法。本文对贝叶斯方法在强化学习(RL)范式中的作用进行了深入的评述。在RL中整合贝叶斯推理的主要动机是,它提供了一种优雅的行动选择(探索/开发)方法,作为学习中的不确定性的函数,并且它提供了一种将先验知识整合到算法中的机制。
 
   
 
   贝叶斯强化学习:综述首先讨论了简单单步Bandit模型中的贝叶斯推理模型和方法。然后回顾了最近关于基于模型的RL的贝叶斯方法的广泛文献,其中先验信息可以表达在马尔可夫模型的参数上。它还提出了无模型RL的贝叶斯方法,其中先验是在值函数或策略类上表示的。
 
   
 
   《贝叶斯强化学习》是一个全面的参述,为学生和研究人员与兴趣的贝叶斯RL算法及其理论和经验性质。
 
   
 
   ![]()
 
    
    
    本文的主要目的是对BRL算法及其理论和经验性质进行全面的综述。 
    在第二章,我们提供了一个主要的数学概念和技术的回顾,在整个论文中使用。第三章利用bandit框架研究了单步决策的贝叶斯学习方法。这一节既是在一个易于理解的更简单的环境中阐述BRL的潜力,也是一个独立的兴趣点,因为bandit 具有广泛的应用。这里给出的主要结果是理论性质的,概述了遗憾最小化标准的已知性能界限。第四章回顾了现有的基于模型的BRL方法,其中后验是通过系统动力学模型的参数来表示的。第5章重点讨论BRL方法,这些方法不明确地学习系统的模型,而是在后一种方法在解空间中表达。第6章重点介绍了BRL在处理参数不确定性导致的风险方面的一个特殊优势,并调查了几种将此类风险纳入决策过程的方法。最后,第七章讨论了针对特殊问题(PAC-Bayes模型选择、逆RL、多智能体RL和多任务RL)的BRL的各种扩展 
    
   
 
   
 
   ![]()
 
   ![]()
 
   
 
   专知便捷查看
 
    
     
      
      便捷下载,请关注专知公众号(点击上方蓝色专知关注)
 
       
      
     
   
 
    
    
    
    专知,专业可信的人工智能知识分发 
    ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料! 
    
 
    
    
    
     
      
       
       
       
       欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询! 
       
      
     
    
    
     
      
       
        
         
         
          
           
            
            点击“ 
            阅读原文 
            ”,了解使用 
            专知 
            ,查看获取5000+AI主题知识资源