The processing of omnidirectional 360-degree images poses significant challenges for object detection due to inherent spatial distortions, wide fields of view, and ultra-high-resolution inputs. Conventional detectors such as YOLO are optimised for standard image sizes (for example, 640x640 pixels) and often struggle with the computational demands of 4K or higher-resolution imagery typical of 360-degree vision. To address these limitations, we introduce YOLO11-4K, an efficient real-time detection framework tailored for 4K panoramic images. The architecture incorporates a novel multi-scale detection head with a P2 layer to improve sensitivity to small objects often missed at coarser scales, and a GhostConv-based backbone to reduce computational complexity without sacrificing representational power. To enable evaluation, we manually annotated the CVIP360 dataset, generating 6,876 frame-level bounding boxes and producing a publicly available, detection-ready benchmark for 4K panoramic scenes. YOLO11-4K achieves 0.95 mAP at 0.50 IoU with 28.3 milliseconds inference per frame, representing a 75 percent latency reduction compared to YOLO11 (112.3 milliseconds), while also improving accuracy (mAP at 0.50 of 0.95 versus 0.908). This balance of efficiency and precision enables robust object detection in expansive 360-degree environments, making the framework suitable for real-world high-resolution panoramic applications. While this work focuses on 4K omnidirectional images, the approach is broadly applicable to high-resolution detection tasks in autonomous navigation, surveillance, and augmented reality.


翻译:全向360度图像的处理因固有的空间畸变、宽广的视场和超高分辨率输入,为目标检测带来了重大挑战。诸如YOLO等传统检测器针对标准图像尺寸(例如640x640像素)进行了优化,在处理360度视觉中典型的4K或更高分辨率图像时,常难以应对其计算需求。为应对这些局限,我们提出了YOLO11-4K,一种专为4K全景图像设计的高效实时检测框架。该架构引入了一个新颖的多尺度检测头,包含一个P2层以提升对在较粗尺度下常被遗漏的小目标的敏感性,并采用基于GhostConv的主干网络,在不牺牲表征能力的前提下降低计算复杂度。为支持评估,我们手动标注了CVIP360数据集,生成了6,876个帧级边界框,并创建了一个公开可用的、适用于检测的4K全景场景基准。YOLO11-4K在0.50 IoU阈值下达到了0.95的mAP,每帧推理时间为28.3毫秒,与YOLO11(112.3毫秒)相比延迟降低了75%,同时提升了准确率(0.50 IoU下的mAP为0.95,对比0.908)。这种效率与精度的平衡使得在广阔的360度环境中实现鲁棒的目标检测成为可能,使该框架适用于现实世界的高分辨率全景应用。尽管本研究聚焦于4K全向图像,但该方法广泛适用于自动驾驶导航、监控和增强现实等领域的高分辨率检测任务。

0
下载
关闭预览

相关内容

Yolo算法,其全称是You Only Look Once: Unified, Real-Time Object Detection,You Only Look Once说的是只需要一次CNN运算,Unified指的是这是一个统一的框架,提供end-to-end的预测,而Real-Time体现是Yolo算法速度快。
【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
44+阅读 · 2022年1月6日
Python图像处理,366页pdf,Image Operators Image Processing in Python
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员