杂乱场景中的尺度层次三维目标识别

3D视觉工坊 10/1

The following article is from 计算机视觉工坊 Author 仲夏夜之星

专注于计算机视觉、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

论文标题：Scale-Hierarchical 3D Object Recognition in Cluttered Scenes作者：Prabin Bariya，Ko Nishino论文地址：在公众号「3D视觉工坊」，后台回复「三维目标识别」，即可直接下载。摘要：三维目标识别在遮挡和杂乱场景中的是一项艰巨的任务。在本文中，引入一种利用几何尺度的可变性的方法来解决这一任务，其关键在于利用局部几何结构的尺度变化所提供的丰富判别信息来约束模型与场景点之间潜在对应的大量搜索空间，尤其是可以利用几何尺度的变异性来计算每个内在几何尺度的形式特征，还有由内在几何尺度集合后诱导的层次结构和局部尺度相关的三维形状描述符的辨别力，该方法以一种由粗到细的分层方式来利用增加的信息，从而有效地筛选所有潜在通信的空间。本文在大量的真实场景上实验评估了该方法的准确性与不同数量的部分遮挡，识别率较先进方法高，此外，尽管存在着全局尺度变化，本文也系统地演示了该方法能够准确定位目标。

一、简介

三维目标识别旨在正确识别三维场景中的对象，通常要获得目标的深度图像，并估计其位置和每个对象的方向。三维场景是杂乱无章的，场景中的物体也存在相互遮挡，传统的三维物体识别方法一般包括两个阶段：特征提取和匹配。在特征提取阶段，具有代表性的特征从数据中选择或计算，为了处理遮挡首选局部特征；在匹配阶段，建立待识别模型特征与场景特征的对应关系。特征提取在匹配过程中扮演着重要的角色，用于表征三维表面数据和其相邻数据的计算特征和识别能力，是任何三维物体识别系统精度的关键因素。本文提出了一个综合框架，利用局部几何结构的尺度变异性所提供的丰富的判别信息，在杂乱的三维场景中识别和定位目标，并且建立了所有待识别物体的模型库，并通过一组尺度相关的角点及其尺度不变的局部三维形状描述符来表示每个物体和场景，本文使用一种基于解释树的方法进行识别，在模型库中为每个模型构造一棵树。树中的节点表示模型和场景特征之间相互关系，每个分支代表一个关于存在的假设场景中该模型的缺失和姿势。本文的关键思想是利用尺度相关特征提供的丰富鉴别力信息来在匹配阶段进行辅助，并且展示了模型和场景特征在大的空间下可以有效地在基于添加的几何尺度信息以指数的形式进行剔除，使用每个尺度相关的角的内在尺度来限制其可能的对应只针对那些在相同的内在尺度下被检测到的角。不变的局部三维形状描述符可以进一步限制高度相似角之间的对应关系。此外，本文还展示了如何利用局部几何结构的固有尺度层次来对基于树的匹配施加由粗到细的层次结构。在50个不同遮挡和杂乱水平的真实场景上进行了识别实验，证明了该方法的有效性和准确性，还实现了一个97.5%的识别率与84%的遮挡，这超过了在同一广泛的数据集上的最新报道的状态，对于所有级别的遮挡，我们的总识别率是93.58%，此外，实验还表明，在库中存在不同全局尺度的对象的场景中，所提出的框架能够实现3D对象识别。

二、相关尺度的模型库与场景

本文首先构造了一个对象的模型库用一组合适的对象来识别和表示每个对象特征。为此，本文利用了3D数据中局部几何结构的尺度变异性，并使用了准确描绘这种尺度变异性的特征。然后为每个要识别的模型计算一个尺度相关的表示。类似地，我们用依赖于规模的表示来表示场景。

2.1、尺度不变性

距离图像的几何尺度-空间分析是由Novatnack和Nishino在[1]中提出的，他们计算三维表面特征的角，从而捕获底层几何结构的自然尺度。这些特征连同它们的局部三维形状描述子被用来自动对齐一组混合的范围图像来将多个对象进行三维重建，利用测地距离和它对应的用于尺度空间来分析离散尺度集，用标准差递增的高斯核对深度图像的表面法向量进行滤波，可以构造深度图像的几何尺度空间。然后在每个离散尺度上使用角点检测器和搜索角点检测器响应的空间最大值来检测三维几何角点。通过在离散尺度集合中搜索角点检测器响应的局部最大值，确定了每个几何角点的内在尺度。然后，通过使用指数映射对与角的比例成比例的局部表面区域内的表面法线进行编码，就可以在每个检测到的角上计算出三维形状描述符。图1显示了在模型库中根据模型对象的深度图像计算出的与比例相关的角。并给出了不同尺度下计算出的角点局部三维形状描述符。

图1 基于几何尺度空间分析，红色、黄色、绿色、绿松石色和蓝色表示从最粗糙到最精细的角

2.2、模型库

模型库包括目标场景中感兴趣的3D对象模型。为了计算每个对象的尺度相关表示，首先用一组距离图像表示每个对象，然后从物体的三维模型的许多均匀分布的视图中合成距离图像。如图2所示，选择视图的数量，以便在每个相邻的视图对之间有重叠，以便在至少一个合成范围图像中捕获三维模型的所有区域。对于每一幅合成的深度图像，可以计算若干离散尺度下的尺度相关角。为了确定用于几何尺度空间分析的离散尺度，计算从一组离散尺度中在最粗尺度检测到的总尺度相关角的百分比，并且选择5个比例间隔的离散尺度，这样检测到的与尺度相关的角只有5%到10%来自最粗的尺度。因此，只有最显著的几何特征在最粗糙的尺度被检测。本文计算一个尺度不变的局部三维形状，最后，用模型库中的每个对象的三维模型和一组统一的、与尺度相关的角点及其对应的尺度不变性局部三维形状描述符来表示该模型库中的每个对象。

图2 合成了Chef模型的八个均匀分布视图的深度图像

2.3、场景目标

需要识别的场景是深度图像，因此无需进行任何预处理，只需要计算与尺度相关的角点及其对应的尺度不变局部三维形状描述符。用于构造几何尺度空间的尺度集的确定方法与模型尺度相同。图3显示了在一个带有杂波和遮挡的场景中计算出的与尺度相关的角和它们相应的尺度不变描述符。

图3 基于尺度空间分析，在真实深度图像上计算尺度相关的角点和尺度不变描述符。在较粗的层次上检测到的拐角描述符编码拐角附近相对较大的邻域。

三、尺度解释树

给定模型和场景的尺度相关表示，就使用体现模型和场景特征之间所有可能的对应的树结构来进行匹配。我们在场景中一次只搜索一个对象，使用约束解释树，利用与尺度相关的角提供的丰富的辨别信息。任何成功的搜索结果都可以用来从已识别和分割的场景区域中删除场景特征，这样这些特征就不再用于后续的任何其他对象搜索。

3.1、解释树

解释树方法[8]通过将模型基元与场景基元之间的对应表示为树结构中的一个节点来匹配。在树的根，没有通信。随着树的每一层的增加，一个新的模型基元被选择，它与所有可用的场景基元在该层形成节点。树中的每个节点都包含了一个关于场景中给定模型存在的假设，该假设由该节点及其所有父节点的通信集合构成。树的下降意味着对特定假设[2]的承诺水平的增加，对于复杂场景[3]，由整个解释树表示的所有对应的搜索空间可能呈指数大。例如，对于一个有m个原始模型和一个有n个原始场景，一个无约束树的第一级可能有n个节点，第二级可能有n2个节点，以此类推。因此，约束和修剪树对于保持搜索空间的可处理性变得至关重要。我们的关键思想是利用与尺度相关的角编码的丰富的鉴别信息，对要添加到树中的节点施加约束。

3.2、解释树的形成

3.3、假设验证和分割

四、实验

4.1、尺度依赖的识别

图4 尺度依赖的方法对50个真实场景的识别率(a)遮挡和(b)杂波。没有假阳性和假阴性发生接近100%的遮挡。本文方法在不同的遮挡和杂波量下获得了一致的高识别率。(c)中给出了剔除rhino后的结果，以便与[4]进行直接比较，本文结果优于[4]。

4.2、尺度不变的识别

图5 对于(a)遮挡和(b)杂波，在包含全局缩放库对象的真实场景和合成场景中，尺度不变方法的识别率。本文第一个展示三维尺度不变物体识别的系统结果。

总结

本文提出了一种三维目标自动识别方法，能够在具有显著杂波的场景中准确地识别出高遮挡的目标，我们的主要贡献是利用数据中局部几何结构的尺度变异性，有效地限制模型和场景基元之间所有可能的对应空间。本文在50个真实场景上进行了实验，在84%的遮挡下实现了97.5%的识别率，超过了目前的水平。此外，第一次系统地证明了本文框架也能够在复杂场景中执行尺度不变识别任务，在具有缩放库对象的真实和合成场景上进行了实验，识别率为89.29%，并且相信尺度不变识别方法有广泛的实际意义，因为模型库可以用适当缩放的对象模型和缩放的对象来构建可以在场景中准确识别，因此希望本文工作将激发更多的兴趣在比例不变的3D物体识别，因为可以看到它在真实的3D识别场景中至关重要。

参考文献

[1] J. Novatnack and K. Nishino. Scale-Dependent/Invariant Local 3D Shape Descriptors for Fully Automatic Registration of Multiple Sets of Range Images. In European Conf. on Computer Vision. IEEE Computer Society, 2008.[2] P. Flynn and A. Jain. Bonsai: 3D Object Recognition using Constrained Search. IEEE Trans. on Pattern Analysis and Machine Intelligence, 13(10):1066–1075, 1991[3] W. Grimson. The Combinatorics of Object Regnition in Cluttered Environments using Constrained Search. Proc.Int’l Conf. Computer Vision, pages 218–227, 1988.[4] A. Mian, M. Bennamoun, and R. Owens. Three-Dimensional Model-Based Object Recognition and Segmentation in Cluttered Scenes. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2006.本文仅做学术分享，如有侵权，请联系删文。下载1在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。下载3在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

杂乱场景中的尺度层次三维目标识别

杂乱场景中的尺度层次三维目标识别

一、简介