We show that multi-agent systems guided by vision-language models (VLMs) improve end-to-end autonomous scientific discovery. By treating plots as verifiable checkpoints, a VLM-as-a-judge evaluates figures against dynamically generated domain-specific rubrics, enabling agents to correct their own errors and steer exploratory data analysis in real-time. Case studies in cosmology and astrochemistry demonstrate recovery from faulty reasoning paths and adaptation to new datasets without human intervention. On a 10-task benchmark for data-driven discovery, VLM-augmented systems achieve pass at 1 scores of 0.7-0.8, compared to 0.2-0.3 for code-only and 0.4-0.5 for code-and-text baselines, while also providing auditable reasoning traces that improve interpretability. Code available here: https://github.com/CMBAgents/cmbagent


翻译:我们证明,由视觉语言模型引导的多智能体系统能够改进端到端的自主科学发现。通过将图表视为可验证的检查点,一个作为评判者的视觉语言模型根据动态生成的领域特定评分标准评估图像,使智能体能够实时纠正自身错误并引导探索性数据分析。宇宙学和天体化学的案例研究表明,系统能够从错误的推理路径中恢复,并在无需人工干预的情况下适应新的数据集。在一个包含10项任务的数据驱动发现基准测试中,视觉语言模型增强的系统在Pass@1指标上达到了0.7-0.8的分数,而纯代码基线的分数为0.2-0.3,代码与文本结合基线的分数为0.4-0.5。同时,该系统还提供了可审计的推理轨迹,从而提高了可解释性。代码可在此处获取:https://github.com/CMBAgents/cmbagent

0
下载
关闭预览

相关内容

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 12月16日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员