多模态基础模型——在视觉、语言及其他模态的多样化数据上训练的大规模神经网络——已成为处理、理解与生成多模态信息的强大工具。然而,我们对其基本属性及其在加速科学研究流程中的潜力仍缺乏深入理解。本论文从两个互相关联的方向出发,致力于弥补这一空白:推进多模态基础模型的科学研究,以及将其应用于科学发现

首先,我通过分析多模态基础模型的内部表征行为模式,加深了对其科学机理的理解。针对基于嵌入的多模态对比模型,我揭示并缓解了“模态鸿沟”问题——即视觉与语言表征之间持久存在的几何分离——并展示了消除这一鸿沟如何支持诸如跨模态检索多模态诊断等应用。针对生成式多模态大语言模型,我发现并应对了其在图像分类等核心能力上的意外弱点,并提出了更精确的评估策略。

其次,我探讨了这些模型如何加速科学发现过程——即揭示关于世界的未知知识的过程。我展示了多模态基础模型可作为交互式智能体,自动化复杂数据分析;也可作为虚拟实验环境,在计算机中模拟实验结果。例如,VisDi! 能识别由数千张图像组成的图像集中的细微差异,而 CellFlux 则可创建“虚拟细胞”,预测细胞对扰动的反应。这些进展为一种自动化科学发现框架铺平了道路,使系统能够自主地分析数据、生成假设、设计实验,并在仿真环境中进行快速验证。

综上所述,这两个研究方向形成了一个自我强化的循环:理论理解推动实践应用,而实践应用又反哺理论发展。这种协同效应将严谨的科学探究与变革性的现实影响相结合,为多模态智能与自动化科学的未来铺设了基础。

成为VIP会员查看完整内容
0

相关内容

【普林斯顿博士论文】大型模型的高效推理
专知会员服务
21+阅读 · 8月10日
【ETHZ博士论文】机器学习代码: 安全性与可靠性
专知会员服务
19+阅读 · 2024年10月25日
【MIT博士论文】物理启发的生成式模型
专知会员服务
32+阅读 · 2024年9月6日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
51+阅读 · 2019年7月23日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
超级干货 :一文读懂特征工程
数据分析
10+阅读 · 2017年9月6日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
172+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
177+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员