多媒体顶会ACM Multimedia 2025各大奖项揭晓！格拉斯哥大学等获最佳论文，中科院自动化所等获最佳学生论文

【导读】2025年10月27日至10月31日，ACM Multimedia 2025（第33届ACM国际多媒体大会）在爱尔兰都柏林举行，该大会是多媒体领域的顶级国际学术会议，也是中国计算机学会推荐的A类会议，为全球学术界和工业界的研究者提供核心交流平台。最佳论文，最佳学生论文，最佳demo，最佳开源软件在内的所有多媒体领域大奖都已出炉。

ACM国际多媒体会议（ACM International Conference on Multimedia, 简称自1993年首次召开以来，ACMMM每年召开一次，已经成为多媒体领域顶级会议，也是中国计算机学会推荐的A类国际学术。会议热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。

最佳论文

标题****：******** Open-Vocabulary 3D Affordance Understanding via Functional Text Enhancement and Multilevel Representation Alignment**（通过功能性文本增强与多层次表征对齐的开放词汇三维可供性理解）**

作者******：****** Lin Wu, Wei Wei, Peizhuo Yu, Jianglin Lan

摘要：理解三维可供性（3D affordance）对于智能体在真实环境中实现高效交互至关重要，这一能力涵盖了操控（manipulation）与导航（navigation）等任务。现有方法通常通过基于标签的语言描述来支持开放词汇查询，但其表征往往存在泛化能力不足与判别性较弱的问题。

然而，可供性理解要求从碎片化的语言表达中构建一个连贯的语义景观——既要保持类内多样性，又需尽量减少类间重叠。为解决这些挑战，我们提出了 Aff3DFunc，一个旨在强化可供性与三维几何之间对齐的框架。该框架首先引入了基于信息瓶颈（Information Bottleneck, IB）原理的功能性文本增强模块（functional text enhancement module），通过最大化语义的相关性与多样性来战略性地丰富可供性语义。随后，采用双编码器架构（dual-encoder architecture）从点云与文本中提取嵌入表示。为弥合模态间差距，我们进一步提出了多层次表征对齐策略（multilevel representation alignment strategy），结合有监督对比学习（supervised contrastive learning），以“局部到整体（part-to-whole）”的方式强化语义与几何的对应关系。大量实验表明，我们的方法显著提升了对复杂可供性的理解能力。所学习的表征在应对多样化文本查询时表现出极高的适应性，尤其在零样本（zero-shot）场景下尤为突出。此外，真实机器人验证结果进一步证明了本方法在可供性理解方面的有效性，使智能体能够执行更精细的操控任务。

论文地址：

https://dl.acm.org/doi/pdf/10.1145/3746027.3755239

最佳学生论文

标题**：************

Building Embodied EvoAgent : A Brain-inspired Paradigm for Bridging Multimodal Large Models and World Models（构建具身进化智能体：一种连接多模态大模型与世界模型的类脑范式）**

作者****：Junyu Gao, Xuan Yao, Yong Rui, Changsheng Xu********

摘要：在多模态学习、机器人学与认知科学的推动下，具身人工智能（Embodied Artificial Intelligence）得到了迅速发展，并在导航与操控等领域展现出巨大潜力。然而，构建能够在多样且动态环境中稳健运行的具身智能体仍面临诸多挑战，如处理部分可观测性（partial observability）与环境适应性（environmental adaptability）等问题。多模态大语言模型（Multimodal Large Language Models, MLLMs）因其强大的多模态信息处理能力，在具身智能的发展中扮演着关键角色。然而，它们在空间环境理解、动态决策与演化方面仍存在不足。受人脑左右半球功能分化（functional specialization）的启发，本文提出了一种面向具身智能体的类脑学习与进化范式（brain-inspired learning and evolution paradigm）。具体而言，该方法设计了一个具身上下文增强的多模态大语言模型（embodied context-augmented MLLM），以模拟人脑左半球的语言处理与逻辑分析能力，负责指令理解与视觉场景解析。同时，构建了一个基于循环状态空间模型（Recurrent State Space Model, RSSM）的感知上下文引导的世界模型（perceptual context-guided world model），用于模拟人脑右半球的空间感知与整体思维功能，从而捕捉环境动态并预测未来状态。此外，受胼胝体（corpus callosum）通信机制的启发，本文提出了动态通信槽（dynamic communication slots），以实现MLLM与世界模型之间的高效信息交换，使智能体能够在无需大量计算资源的情况下快速适应动态环境。实验结果表明，该类脑范式在一系列具身任务中显著提升了智能体的性能，并通过具身探索经验与在线进化（online evolution）增强了其在零样本任务（zero-shot tasks）中的泛化能力。项目主页可访问：https://feliciaxyao.github.io/EvoAgent/。

论文地址：

https://dl.acm.org/doi/pdf/10.1145/3746027.3754880 专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“MM2024” 可以获取**《多媒体顶会ACM Multimedia 2024各大奖项揭晓！杭电等获最佳论文，莫纳什大学等获最佳学生论文****》专知下载链接索引**

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取10000+AI主题干货知识资料！欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！点击“阅读原文”，了解使用专知****，查看获取5000+AI主题知识资源