Panoramic imaging enables capturing 360° images with an ultra-wide Field-of-View (FoV) for dense omnidirectional perception, which is critical to applications, such as autonomous driving and augmented reality, etc. However, current panoramic semantic segmentation methods fail to identify outliers, and pinhole Out-of-distribution Segmentation (OoS) models perform unsatisfactorily in the panoramic domain due to pixel distortions and background clutter. To address these issues, we introduce a new task, Panoramic Out-of-distribution Segmentation (PanOoS), with the aim of achieving comprehensive and safe scene understanding. Furthermore, we propose the first solution, POS, which adapts to the characteristics of panoramic images through text-guided prompt distribution learning. Specifically, POS integrates a disentanglement strategy designed to materialize the cross-domain generalization capability of CLIP. The proposed Prompt-based Restoration Attention (PRA) optimizes semantic decoding by prompt guidance and self-adaptive correction, while Bilevel Prompt Distribution Learning (BPDL) refines the manifold of per-pixel mask embeddings via semantic prototype supervision. Besides, to compensate for the scarcity of PanOoS datasets, we establish two benchmarks: DenseOoS, which features diverse outliers in complex environments, and QuadOoS, captured by a quadruped robot with a panoramic annular lens system. Extensive experiments demonstrate superior performance of POS, with AuPRC improving by 34.25% and FPR95 decreasing by 21.42% on DenseOoS, outperforming state-of-the-art pinhole-OoS methods. Moreover, POS achieves leading closed-set segmentation capabilities and advances the development of panoramic understanding. Code and datasets will be available at https://github.com/MengfeiD/PanOoS.


翻译:全景成像能够通过超宽视场捕获360°图像,实现密集的全方位感知,这对于自动驾驶和增强现实等应用至关重要。然而,当前的全景语义分割方法无法识别异常样本,而针孔分布外分割模型由于像素畸变和背景杂波在全景域中表现欠佳。为解决这些问题,我们引入了一项新任务——全景分布外分割,旨在实现全面且安全的场景理解。此外,我们提出了首个解决方案POS,它通过文本引导的提示分布学习适应全景图像的特性。具体而言,POS集成了一种解耦策略,旨在实现CLIP的跨域泛化能力。所提出的基于提示的恢复注意力通过提示引导和自适应校正优化语义解码,而双层提示分布学习则通过语义原型监督细化逐像素掩码嵌入的流形。此外,为弥补全景分布外分割数据集的不足,我们建立了两个基准:DenseOoS(包含复杂环境中多样化的异常样本)和QuadOoS(由搭载全景环形镜头系统的四足机器人捕获)。大量实验表明POS具有卓越性能,在DenseOoS上AuPRC提升34.25%,FPR95降低21.42%,优于最先进的针孔分布外分割方法。此外,POS在闭集分割能力上达到领先水平,并推动了全景理解的发展。代码和数据集将在https://github.com/MengfeiD/PanOoS提供。

0
下载
关闭预览

相关内容

图增强生成(GraphRAG)
专知会员服务
33+阅读 · 1月4日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
【论文笔记】Graph U-Nets
专知
81+阅读 · 2019年11月25日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月10日
VIP会员
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
【论文笔记】Graph U-Nets
专知
81+阅读 · 2019年11月25日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
相关论文
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员