Agentic AI systems and Physical or Embodied AI systems have been two key research verticals at the forefront of Artificial Intelligence and Robotics, with Model Context Protocol (MCP) increasingly becoming a key component and enabler of agentic applications. However, the literature at the intersection of these verticals, i.e., Agentic Embodied AI, remains scarce. This paper introduces an MCP server for analyzing ROS and ROS 2 bags, allowing for analyzing, visualizing and processing robot data with natural language through LLMs and VLMs. We describe specific tooling built with robotics domain knowledge, with our initial release focused on mobile robotics and supporting natively the analysis of trajectories, laser scan data, transforms, or time series data. This is in addition to providing an interface to standard ROS 2 CLI tools ("ros2 bag list" or "ros2 bag info"), as well as the ability to filter bags with a subset of topics or trimmed in time. Coupled with the MCP server, we provide a lightweight UI that allows the benchmarking of the tooling with different LLMs, both proprietary (Anthropic, OpenAI) and open-source (through Groq). Our experimental results include the analysis of tool calling capabilities of eight different state-of-the-art LLM/VLM models, both proprietary and open-source, large and small. Our experiments indicate that there is a large divide in tool calling capabilities, with Kimi K2 and Claude Sonnet 4 demonstrating clearly superior performance. We also conclude that there are multiple factors affecting the success rates, from the tool description schema to the number of arguments, as well as the number of tools available to the models. The code is available with a permissive license at https://github.com/binabik-ai/mcp-rosbags.


翻译:智能体人工智能系统与物理或具身人工智能系统一直是人工智能和机器人学领域两个关键的前沿研究方向,而模型上下文协议正日益成为智能体应用的核心组件和赋能者。然而,在这两个方向的交叉领域,即具身智能体人工智能方面的文献仍然匮乏。本文介绍了一种用于分析 ROS 和 ROS 2 bag 文件的 MCP 服务器,能够通过大语言模型和视觉语言模型,以自然语言的方式分析、可视化和处理机器人数据。我们描述了利用机器人学领域知识构建的特定工具集,其初始版本专注于移动机器人领域,并原生支持对轨迹、激光扫描数据、坐标变换或时间序列数据的分析。此外,它还提供了对标准 ROS 2 命令行工具(如 'ros2 bag list' 或 'ros2 bag info')的接口,以及按主题子集或时间范围筛选 bag 文件的能力。配合该 MCP 服务器,我们提供了一个轻量级用户界面,允许使用不同的大语言模型(包括专有模型如 Anthropic、OpenAI 和通过 Groq 访问的开源模型)对该工具集进行基准测试。我们的实验结果包括对八种不同的、涵盖专有与开源、大型与小型的最新大语言模型/视觉语言模型的工具调用能力分析。实验表明,不同模型在工具调用能力上存在巨大差异,其中 Kimi K2 和 Claude Sonnet 4 表现出明显更优的性能。我们还得出结论,影响成功率的因素是多方面的,包括工具描述模式、参数数量以及模型可用的工具数量。代码已在 https://github.com/binabik-ai/mcp-rosbags 以宽松许可证开源。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员