This paper aims to design a 3D object detection model from 2D images taken by monocular cameras by combining the estimated bird's-eye view elevation map and the deep representation of object features. The proposed model has a pre-trained ResNet-50 network as its backend network and three more branches. The model first builds a bird's-eye view elevation map to estimate the depth of the object in the scene and by using that estimates the object's 3D bounding boxes. We have trained and evaluate it on two major datasets: a syntactic dataset and the KIITI dataset.


翻译:本文的目的是将估计的鸟眼视野高地图和物体特征的深度表示组合在一起,从用单筒照相机拍摄的2D图像中设计一个3D物体探测模型。拟议模型有一个预先训练的ResNet-50网络作为其后端网络和另外三个分支。模型首先建立一个鸟眼图像高地图,以估计物体在现场的深度,并使用该图来估计物体的3D捆绑框。我们培训和评价了两个主要数据集:合成数据集和KIITI数据集。

0
下载
关闭预览

相关内容

CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
45+阅读 · 2020年4月17日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
13+阅读 · 2019年1月16日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
Top
微信扫码咨询专知VIP会员