主要思想和创新点

三维点云中目标的精确检测是许多应用中的核心问题，如自主导航、管家机器人和增强/虚拟现实等。为了将高度稀疏的激光雷达点云与区域建议网络（RPN）连接，大多数现有的工作都集中在手工制作的特征表示上，例如，鸟瞰图投影。这项工作消除了人工特征工程对三维点云的需求，提出了VoxelNet，一种将特征提取和box预测统一为一个单阶段、端到端可训练的深度通用三维检测网络。具体来说：

提出了VoxelNet，一种通用的三维检测框架，它可以从点云中同时学习区分特征表示，并以端到端的方式预测精确的三维边界框。
设计了一种新的体素特征编码（VFE）层，通过将点特征与局部聚集特征相结合，实现了体素内部的点间交互，通过叠加多个VFE层可以学习复杂特征来表征局部3D形状信息。
VoxelNet将点云划分为等间距的三维体素，通过叠加的VFE层对每个体素进行编码，然后三维卷积进一步聚集局部体素特征，将点云转化为高维体素表示。
RPN使用体积表示并产生检测结果。这种有效的算法既有稀疏点结构的优点，又有体素网格上高效并行处理的优点。
本网络主要面向RPN+点云操作，并没有建立类别级的分类，作为一个通用的面向激光雷达点云操作的RPN框架使用。

在KITTI汽车检测基准上的实验表明，VoxelNet在很大程度上优于最新的基于激光雷达的三维检测方法。此外，网络能够学习到各种几何体的物体的有效区分表示，从而在仅基于激光雷达的行人和骑自行车者的三维检测中取得令人鼓舞的结果。

网络结构

如下图所示，网络主要包括三个模块：Feature Learning Network、Convolutional Middle Layers和Region ProposalNetwork。

针对Feature Learning Network：首先对3D点云进行体积划分，然后进行特征提取，特征提取部分主要包括一系列的VFE模块进行处理，最终输出一个4D的tensor供下ConvolutionalMiddle Layers进行处理。其中VFE特征编码网络结构：

针对Convolutional Middle Layers：

每个卷积中间层依次应用3D卷积、BN层和ReLU层。卷积中间层在逐渐扩展的感受野中聚集体素特征，为形状描述添加更多的信息。

针对Region Proposal Network：RPN的输入是由卷积中间层提供的特征映射。这个网络的架构如下图所示。该网络有三个完全卷积层块，每个块的第一层通过步长为2的卷积将特征映射进行下采样，紧接着是步长为1的卷积操作。每个卷积层之后，应用BN和ReLU操作。然后，将每个块的输出数据提升到一个固定的大小并进行concatanate，以构建高分辨率的特征映射，最后的RPN在该特征图上进行操作，输出概率得分图和回归图。

损失函数：由于VoxelNet主要针对region proposal任务，并不做类别判断。Loss部分主要由3D box参数和前景背景判断组成如下所示：

640?wx_fmt=png

box参数的定义，包括长宽高、角度以及中心坐标：

640?wx_fmt=png

实验结果

主要针对KITTI数据集中的Car、Pedestrian和Cyclist进行测试，多模型效果对比如下所示：

将检测效果映射到RGB图像：

原文链接：https://arxiv.org/abs/1711.06396

上述内容，如有侵犯版权，请联系作者，会自行删文。

重磅！3DCVer-学术交流群已成立

欢迎加入我们公众号读者群一起和同行交流，目前有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加群或投稿

▲长按关注我们

VoxelNet阅读笔记

主要思想和创新点

网络结构

Recommend

汇总|3D点云目标检测算法

机器人抓取领域性能评估标准

机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

面向高精度领域的视觉伺服算法汇总

EPnP：一种复杂度为O(N)的求解PnP问题的方法

DSGN：基于深度立体几何网络的3D目标检测（香港大学提出）

汇总|基于3D点云的深度学习方法

汇总|3D点云分割算法

基于深度学习的三维重建算法综述

系列篇|一文尽览事件相机原理

About Joyk