**摘要 **多智能体强化学习 (Multi-agent Reinforcement Learning, MARL) 近年来获得广泛关注并在 不同领域取得进展. 其中, 协作多智能体强化学习专注于训练智能体团队以协同完成单智能体难以 应对的任务目标, 在路径规划, 无人驾驶, 主动电压控制和动态算法配置等场景展现出巨大的应用潜 力. 如何提升系统协作效能是协作多智能体强化学习领域研究重点之一, 以往的研究工作主要在简 单, 静态和封闭的环境设定中展开. 随着人工智能技术落地的驱使, 目前在多智能体协作领域也有部 分研究开始对开放环境下的多智能体协作展开研究, 这些工作从多个方面对智能体所处环境中要素 可能发生改变这一情况进行探索与研究, 并取得一定进展. 但是当前主流工作仍然缺乏对该方向的 综述. 本文从强化学习概念着手, 针对多智能体系统, 协作多智能体强化学习, 典型方法与测试环境 进行介绍, 对封闭到开放环境下的协作多智能体强化学习研究工作进行总结, 提炼出多类研究方向并 对典型工作进行介绍. 最后, 本文对当前研究的优势与不足进行了总结, 对未来开放环境下协作多智 能体强化学习的发展方向与待研究问题进行展望, 以吸引更多研究人士参与这个新兴方向的研究与 交流. 关键词 强化学习, 多智能体系统, 多智能体协作, 开放环境机器学习, 开放环境多智能体协作

成为VIP会员查看完整内容
33

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
多智能体强化学习控制与决策研究综述
专知会员服务
44+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
50+阅读 · 2024年11月23日
基于表征学习的离线强化学习方法研究综述
专知会员服务
28+阅读 · 2024年7月2日
面向机器人系统的虚实迁移强化学习综述
专知会员服务
43+阅读 · 2024年2月8日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Arxiv
180+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
多智能体强化学习控制与决策研究综述
专知会员服务
44+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
50+阅读 · 2024年11月23日
基于表征学习的离线强化学习方法研究综述
专知会员服务
28+阅读 · 2024年7月2日
面向机器人系统的虚实迁移强化学习综述
专知会员服务
43+阅读 · 2024年2月8日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
相关资讯
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
相关基金
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员