Recent advances in natural-domain multi-modal large language models (MLLMs) have demonstrated effective spatial reasoning through visual and textual prompting. However, their direct transfer to remote sensing (RS) is hindered by heterogeneous sensing physics, diverse modalities, and unique spatial scales. Existing RS MLLMs are mainly limited to optical imagery and plain language interaction, preventing flexible and scalable real-world applications. In this article, EarthGPT-X is proposed, the first flexible spatial MLLM that unifies multi-source RS imagery comprehension and accomplishes both coarse-grained and fine-grained visual tasks under diverse visual prompts in a single framework. Distinct from prior models, EarthGPT-X introduces: 1) a dual-prompt mechanism combining text instructions with various visual prompts (i.e., point, box, and free-form) to mimic the versatility of referring in human life; 2) a comprehensive multi-source multi-level prompting dataset, the model advances beyond holistic image understanding to support hierarchical spatial reasoning, including scene-level understanding and fine-grained object attributes and relational analysis; 3) a cross-domain one-stage fusion training strategy, enabling efficient and consistent alignment across modalities and tasks. Extensive experiments demonstrate that EarthGPT-X substantially outperforms prior nature and RS MLLMs, establishing the first framework capable of multi-source, multi-task, and multi-level interpretation using visual prompting in RS scenarios.


翻译:近期自然领域多模态大语言模型(MLLMs)的研究进展已通过视觉与文本提示有效展示了空间推理能力。然而,将其直接迁移至遥感领域面临异构传感物理机制、多样化模态及独特空间尺度的挑战。现有遥感MLLMs主要局限于光学影像与自然语言交互,难以实现灵活可扩展的实际应用。本文提出EarthGPT-X,首个统一多源遥感影像理解、在单一框架内通过多样化视觉提示完成粗粒度与细粒度视觉任务的灵活空间MLLM。相较于先前模型,EarthGPT-X的创新在于:1)引入结合文本指令与多种视觉提示(如点、框、自由形状)的双重提示机制,模拟人类生活中指代行为的灵活性;2)构建涵盖多源多层级的提示数据集,推动模型从整体影像理解扩展到支持层次化空间推理,包括场景级理解及细粒度对象属性与关系分析;3)提出跨域单阶段融合训练策略,实现跨模态与跨任务的高效一致对齐。大量实验表明,EarthGPT-X显著优于现有自然领域与遥感MLLMs,首次建立了在遥感场景中利用视觉提示实现多源、多任务、多层级解译的完整框架。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员