The future of UAV interaction systems is evolving from engineer-driven to user-driven, aiming to replace traditional predefined Human-UAV Interaction designs. This shift focuses on enabling more personalized task planning and design, thereby achieving a higher quality of interaction experience and greater flexibility, which can be used in many fileds, such as agriculture, aerial photography, logistics, and environmental monitoring. However, due to the lack of a common language between users and the UAVs, such interactions are often difficult to be achieved. The developments of Large Language Models possess the ability to understand nature languages and Robots' (UAVs') behaviors, marking the possibility of personalized Human-UAV Interaction. Recently, some HUI frameworks based on LLMs have been proposed, but they commonly suffer from difficulties in mixed task planning and execution, leading to low adaptability in complex scenarios. In this paper, we propose a novel dual-agent HUI framework. This framework constructs two independent LLM agents (a task planning agent, and an execution agent) and applies different Prompt Engineering to separately handle the understanding, planning, and execution of tasks. To verify the effectiveness and performance of the framework, we have built a task database covering four typical application scenarios of UAVs and quantified the performance of the HUI framework using three independent metrics. Meanwhile different LLM models are selected to control the UAVs with compared performance. Our user study experimental results demonstrate that the framework improves the smoothness of HUI and the flexibility of task execution in the tasks scenario we set up, effectively meeting users' personalized needs.


翻译:无人机交互系统的未来正从工程师驱动向用户驱动演进,旨在替代传统预定义的人机交互设计。这一转变聚焦于实现更个性化的任务规划与设计,从而获得更高质量的交互体验与更高的灵活性,可应用于农业、航拍、物流及环境监测等多个领域。然而,由于用户与无人机之间缺乏通用语言,此类交互往往难以实现。大型语言模型的发展使其具备理解自然语言与机器人(无人机)行为的能力,标志着个性化人机交互成为可能。近期已有若干基于大型语言模型的人机交互框架被提出,但它们普遍面临混合任务规划与执行的困难,导致在复杂场景中适应性较低。本文提出一种新颖的双智能体人机交互框架。该框架构建了两个独立的大型语言模型智能体(任务规划智能体与执行智能体),并应用不同的提示工程技术分别处理任务的理解、规划与执行。为验证框架的有效性与性能,我们构建了涵盖无人机四种典型应用场景的任务数据库,并使用三项独立指标量化人机交互框架的性能。同时,选取不同大型语言模型控制无人机并进行性能对比。我们的用户研究实验结果表明,该框架在我们设定的任务场景中提升了人机交互的流畅度与任务执行的灵活性,有效满足了用户的个性化需求。

0
下载
关闭预览

相关内容

深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关资讯
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员