Visual grouping -- operationalized through tasks such as instance segmentation, visual grounding, and object detection -- enables applications ranging from robotic perception to photo editing. These fundamental problems in computer vision are powered by large-scale, painstakingly annotated datasets. Despite their impact, these datasets are costly to build, biased in coverage, and difficult to scale. Synthetic datasets offer a promising alternative but struggle with flexibility, accuracy, and compositional diversity. We introduce Synthetic Object Compositions (SOC), an accurate and scalable data synthesis pipeline via a novel object-centric composition strategy. It composes high-quality synthetic object segments into new images using 3D geometric layout augmentation and camera configuration augmentation with generative harmonization and mask-area-weighted blending, yielding accurate and diverse masks, boxes, and referring expressions. Models trained on just 100K of our synthetic images outperform those trained on larger real datasets (GRIT 20M, V3Det 200K) and synthetic pipelines (Copy-Paste, X-Paste, SynGround, SegGen) by +24-36% -- achieving +10.9 AP on LVIS and +8.4 NAcc on gRefCOCO. Beyond the general open-vocabulary setup, SOC also enables controllable dataset construction for different use cases and boosts performance in both low-data and closed-vocabulary scenarios. Augmenting LVIS and COCO with synthetic object segments delivers strong performance across different real-data scales and yields even greater improvements under extremely limited real-data conditions, including +6.59 AP on a 1% COCO data setup. Furthermore, this controllability enables targeted data generation for intra-class referring, a diagnostic grounding task we propose that requires fine-grained attribute discrimination.


翻译:视觉分组——通过实例分割、视觉定位和目标检测等任务实现——支撑着从机器人感知到照片编辑的广泛应用。这些计算机视觉基础任务依赖于大规模、精细标注的数据集。尽管影响深远,此类数据集构建成本高昂、覆盖范围存在偏差且难以扩展。合成数据集提供了有前景的替代方案,但在灵活性、准确性和组合多样性方面仍面临挑战。本文提出合成对象组合(SOC),这是一种通过新颖的以对象为中心的合成策略实现的精准可扩展数据生成流程。该方法通过三维几何布局增强与相机配置增强,结合生成式协调与掩码区域加权融合,将高质量合成对象片段组合成新图像,从而产生精准且多样化的掩码、边界框及指代表达式。仅使用10万张合成图像训练的模型,其性能超越基于更大规模真实数据集(GRIT 2000万、V3Det 20万)和合成流程(Copy-Paste、X-Paste、SynGround、SegGen)训练的模型,提升幅度达24-36%——在LVIS数据集上实现+10.9 AP,在gRefCOCO数据集上实现+8.4 NAcc。除通用开放词汇场景外,SOC还能为不同用例构建可控数据集,并在低数据量与封闭词汇场景中提升性能。使用合成对象片段增强LVIS和COCO数据集,在不同规模的真实数据条件下均表现优异,在极端有限真实数据条件下改进更为显著,包括在1% COCO数据设置中实现+6.59 AP提升。此外,这种可控性支持针对类内指称任务进行定向数据生成——这是我们提出的需要细粒度属性辨别的诊断性定位任务。

0
下载
关闭预览

相关内容

图增强生成(GraphRAG)
专知会员服务
33+阅读 · 1月4日
大型模型中的参数高效微调:方法论综述
专知会员服务
68+阅读 · 2024年11月3日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员