Ensuring the safety of embodied AI agents during task planning is critical for real-world deployment, especially in household environments where dangerous instructions pose significant risks. Existing methods often suffer from either high computational costs due to preference alignment training or over-rejection when using single-agent safety prompts. To address these limitations, we propose MADRA, a training-free Multi-Agent Debate Risk Assessment framework that leverages collective reasoning to enhance safety awareness without sacrificing task performance. MADRA employs multiple LLM-based agents to debate the safety of a given instruction, guided by a critical evaluator that scores responses based on logical soundness, risk identification, evidence quality, and clarity. Through iterative deliberation and consensus voting, MADRA significantly reduces false rejections while maintaining high sensitivity to dangerous tasks. Additionally, we introduce a hierarchical cognitive collaborative planning framework that integrates safety, memory, planning, and self-evolution mechanisms to improve task success rates through continuous learning. We also contribute SafeAware-VH, a benchmark dataset for safety-aware task planning in VirtualHome, containing 800 annotated instructions. Extensive experiments on AI2-THOR and VirtualHome demonstrate that our approach achieves over 90% rejection of unsafe tasks while ensuring that safe-task rejection is low, outperforming existing methods in both safety and execution efficiency. Our work provides a scalable, model-agnostic solution for building trustworthy embodied agents.


翻译:确保具身人工智能代理在任务规划过程中的安全性对于实际部署至关重要,尤其是在家庭环境中,危险指令会带来重大风险。现有方法往往因偏好对齐训练导致高计算成本,或在使用单智能体安全提示时产生过度拒绝。为应对这些局限,我们提出MADRA,一种无需训练的多智能体辩论风险评估框架,通过集体推理增强安全认知,同时不牺牲任务性能。MADRA采用多个基于大语言模型的智能体对给定指令的安全性进行辩论,并由一个关键评估器根据逻辑严密性、风险识别度、证据质量和表述清晰度对响应进行评分。通过迭代审议与共识投票,MADRA在保持对危险任务高敏感度的同时,显著降低了误拒率。此外,我们提出一种分层认知协同规划框架,整合安全、记忆、规划和自进化机制,通过持续学习提升任务成功率。我们还贡献了SafeAware-VH——一个面向VirtualHome环境中安全感知任务规划的基准数据集,包含800条标注指令。在AI2-THOR和VirtualHome上的大量实验表明,我们的方法在确保低安全任务拒绝率的同时,对不安全任务的拒绝率超过90%,在安全性和执行效率上均优于现有方法。本研究为构建可信赖的具身代理提供了可扩展、模型无关的解决方案。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员