This paper proposes a large-scale multi-modal dataset for referring motion expression video segmentation, focusing on segmenting and tracking target objects in videos based on language description of objects' motions. Existing referring video segmentation datasets often focus on salient objects and use language expressions rich in static attributes, potentially allowing the target object to be identified in a single frame. Such datasets underemphasize the role of motion in both videos and languages. To explore the feasibility of using motion expressions and motion reasoning clues for pixel-level video understanding, we introduce MeViS, a dataset containing 33,072 human-annotated motion expressions in both text and audio, covering 8,171 objects in 2,006 videos of complex scenarios. We benchmark 15 existing methods across 4 tasks supported by MeViS, including 6 referring video object segmentation (RVOS) methods, 3 audio-guided video object segmentation (AVOS) methods, 2 referring multi-object tracking (RMOT) methods, and 4 video captioning methods for the newly introduced referring motion expression generation (RMEG) task. The results demonstrate weaknesses and limitations of existing methods in addressing motion expression-guided video understanding. We further analyze the challenges and propose an approach LMPM++ for RVOS/AVOS/RMOT that achieves new state-of-the-art results. Our dataset provides a platform that facilitates the development of motion expression-guided video understanding algorithms in complex video scenes. The proposed MeViS dataset and the method's source code are publicly available at https://henghuiding.com/MeViS/


翻译:本文提出了一个大规模多模态数据集,用于指代运动表达视频分割,其核心在于基于物体运动语言描述的视频目标分割与跟踪。现有的指代视频分割数据集通常聚焦于显著物体,并采用富含静态属性的语言表达,使得目标物体可能在单帧图像中即可被识别。此类数据集未能充分强调视频与语言中运动的作用。为探索利用运动表达与运动推理线索进行像素级视频理解的可行性,我们引入了MeViS数据集,该数据集包含33,072条人工标注的文本与音频运动表达,覆盖了2,006个复杂场景视频中的8,171个物体。我们在MeViS支持的4个任务上对15种现有方法进行了基准测试,包括6种指代视频物体分割(RVOS)方法、3种音频引导视频物体分割(AVOS)方法、2种指代多目标跟踪(RMOT)方法,以及针对新引入的指代运动表达生成(RMEG)任务的4种视频描述方法。结果表明,现有方法在处理运动表达引导的视频理解方面存在不足与局限。我们进一步分析了挑战,并提出了一种用于RVOS/AVOS/RMOT的方法LMPM++,该方法取得了新的最先进性能。我们的数据集为复杂视频场景中运动表达引导的视频理解算法开发提供了一个平台。所提出的MeViS数据集及方法源代码已公开于https://henghuiding.com/MeViS/。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员