Autonomous Underwater Vehicles (AUVs) require reliable six-degree-of-freedom (6-DOF) position control to operate effectively in complex and dynamic marine environments. Traditional controllers are effective under nominal conditions but exhibit degraded performance when faced with unmodeled dynamics or environmental disturbances. Reinforcement learning (RL) provides a powerful alternative but training is typically slow and sim-to-real transfer remains challenging. This work introduces a GPU-accelerated RL training pipeline built in JAX and MuJoCo-XLA (MJX). By jointly JIT-compiling large-scale parallel physics simulation and learning updates, we achieve training times of under two minutes.Through systematic evaluation of multiple RL algorithms, we show robust 6-DOF trajectory tracking and effective disturbance rejection in real underwater experiments, with policies transferred zero-shot from simulation. Our results provide the first explicit real-world demonstration of RL-based AUV position control across all six degrees of freedom.


翻译:自主水下航行器(AUVs)需要在复杂动态的海洋环境中实现可靠的六自由度(6-DOF)位置控制以有效运行。传统控制器在标称条件下表现良好,但在面对未建模动力学或环境扰动时性能会下降。强化学习(RL)提供了一种强大的替代方案,但训练通常较慢,且仿真到现实的迁移仍具挑战性。本研究提出了一种基于JAX和MuJoCo-XLA(MJX)构建的GPU加速RL训练流程。通过联合即时编译大规模并行物理仿真与学习更新,我们实现了两分钟以内的训练时间。通过对多种RL算法的系统评估,我们在真实水下实验中展示了鲁棒的六自由度轨迹跟踪和有效的扰动抑制能力,且策略以零样本方式从仿真迁移而来。我们的研究首次在现实世界中明确展示了基于强化学习的AUV全六自由度位置控制。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员