Understanding the physical world requires perceptual models grounded in physical laws rather than mere statistical correlations. However, existing multimodal learning frameworks, focused on vision and language, lack physical consistency and overlook the intrinsic causal relationships among an object's geometry, material, vibration modes, and the sounds it produces. We introduce VibraVerse, a large-scale geometry-acoustics alignment dataset that explicitly bridges the causal chain from 3D geometry -> physical attributes -> modal parameters -> acoustic signals. Each 3D model has explicit physical properties (density, Young's modulus, Poisson's ratio) and volumetric geometry, from which modal eigenfrequencies and eigenvectors are computed for impact sound synthesis under controlled excitations. To establish this coherence, we introduce CLASP, a contrastive learning framework for cross-modal alignment that preserves the causal correspondence between an object's physical structure and its acoustic response. This framework enforces physically consistent alignment across modalities, ensuring that every sample is coherent, traceable to the governing equations, and embedded within a unified representation space spanning shape, image, and sound. Built upon VibraVerse, we define a suite of benchmark tasks for geometry-to-sound prediction, sound-guided shape reconstruction, and cross-modal representation learning. Extensive validations on these tasks demonstrate that models trained on VibraVerse exhibit superior accuracy, interpretability, and generalization across modalities. These results establish VibraVerse as a benchmark for physically consistent and causally interpretable multimodal learning, providing a foundation for sound-guided embodied perception and a deeper understanding of the physical world. The dataset will be open-sourced.


翻译:理解物理世界需要基于物理定律而非单纯统计相关性的感知模型。然而,现有的多模态学习框架主要关注视觉与语言,缺乏物理一致性,并忽视了物体几何结构、材料属性、振动模态及其产生声音之间的内在因果关系。我们提出了VibraVerse,一个大规模几何-声学对齐数据集,它明确构建了从三维几何→物理属性→模态参数→声学信号的因果链条。每个三维模型均具有明确的物理属性(密度、杨氏模量、泊松比)和体积几何信息,并基于此计算模态特征频率与特征向量,用于在受控激励下合成碰撞声音。为实现这种一致性,我们提出了CLASP,一种用于跨模态对齐的对比学习框架,该框架保持了物体物理结构与其声学响应之间的因果对应关系。该框架强制实现跨模态的物理一致性对齐,确保每个样本均具有一致性、可追溯至控制方程,并嵌入到涵盖形状、图像和声音的统一表示空间中。基于VibraVerse,我们定义了一系列基准任务,包括几何到声音预测、声音引导的形状重建以及跨模态表示学习。在这些任务上的广泛验证表明,基于VibraVerse训练的模型在跨模态任务中展现出更高的准确性、可解释性和泛化能力。这些成果确立了VibraVerse作为物理一致且因果可解释的多模态学习基准,为声音引导的具身感知及深入理解物理世界奠定了基础。该数据集将开源发布。

0
下载
关闭预览

相关内容

【NeurIPS2024】几何轨迹扩散模型
专知会员服务
24+阅读 · 2024年10月20日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2024】几何轨迹扩散模型
专知会员服务
24+阅读 · 2024年10月20日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员