Recent Vision-Language Models (VLMs) exhibit strong perceptual reasoning abilities, yet they often struggle to adapt efficiently when encountering novel tasks at test time. In contrast, humans leverage the metacognitive model with memory, enabling continuous strategy refinement through metacognitive control when faced with new challenges. To bridge this gap, we propose metacognitive test-time reasoning (MCTR), a framework that equips models with the ability to learn, adapt, and improve during test time through metacognitive self-updating. Inspired by the dual structure of human metacognition, MCTR comprises meta-level and object-level VLM reasoning modules, each equipped with dedicated memory systems for hierarchical adaptive reasoning. Specifically, MCTR consists of (1) a meta-reasoning module which incrementally builds a structured memory by discovering and storing task-relevant rules, environmental patterns, and action-outcome relationships from test-time observations as natural language descriptions; and (2) an action-reasoning module that determines optimal actions through context-aware perception and strategic reasoning by dynamically retrieving and integrating knowledge from memory. The action-reasoning module continuously updates its policy through proposed metacognitive test-time reinforcement learning, adapting as knowledge memory evolves. We evaluate MCTR on 45 Atari games (33 seen, 12 unseen). MCTR demonstrates robust test-time adaptation, achieving 9/12 top-1 results on unseen games compared with baselines. Analyses through ablations, learning dynamics, and case studies reveal the complementary contributions of both components and show meta-reasoning evolving toward human-like adaptation strategies.


翻译:当前的视觉-语言模型(VLMs)展现出强大的感知推理能力,但在测试时遇到新任务时往往难以高效适应。相比之下,人类利用具备记忆的元认知模型,能够在面对新挑战时通过元认知控制持续优化策略。为弥补这一差距,我们提出元认知测试时推理(MCTR)框架,使模型能够通过元认知自我更新在测试阶段实现学习、适应与改进。受人类元认知双重结构启发,MCTR包含元层级与对象层级的VLM推理模块,每个模块均配备专用记忆系统以实现分层自适应推理。具体而言,MCTR由两部分构成:(1)元推理模块——通过从测试观察中发现并存储任务相关规则、环境模式及行动-结果关联的自然语言描述,逐步构建结构化记忆;(2)行动推理模块——通过动态检索并整合记忆中的知识,结合情境感知与策略推理确定最优行动。行动推理模块通过我们提出的元认知测试时强化学习持续更新策略,随知识记忆的演进而自适应调整。我们在45款Atari游戏(33款已知,12款未知)上评估MCTR。相较于基线模型,MCTR在未知游戏中展现出鲁棒的测试时适应能力,取得9/12项最优结果。通过消融实验、学习动态分析和案例研究揭示,两个组件具有互补作用,且元推理模块的发展趋向于类人适应策略。

0
下载
关闭预览

相关内容

【ICML2025】通用智能体需要世界模型
专知会员服务
22+阅读 · 6月4日
专知会员服务
25+阅读 · 2021年9月25日
【Coling-2020】面向机器阅读理解的双向认知思维网络
专知会员服务
10+阅读 · 2021年2月12日
注意力机制综述(中文版)
专知
23+阅读 · 2021年1月26日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员