综述|2021最新关于点云配准的全面介绍

dianyunPCL 3D视觉工坊 1 week ago

3D视觉工坊

主要关注3D视觉算法、SLAM、点云处理、三维重建、计算机视觉、深度学习、自动驾驶、图像处理、技术干货以及前沿paper分享。这是一个由多个大厂算法研究人员和高校博士创立的平台，我们坚持原创输出，力争打造为国内最专业的3D视觉社区。

202篇原创内容

Official Account

标题：A comprehensive survey on point cloud registration

作者：Xiaoshui Huang[1], Guofeng Mei[2], Jian Zhang[2], Rana Abbas[1]

编译：点云PCL

来源：arXiv 2021

摘要

点云配准是点云之间的变换估计问题，从优化的角度来看，它经历了很长的发展历史。最近，深度学习的成功极大地提高了配准的鲁棒性和效率。本综述试图对基于优化的学习方法与深度学习方法进行全面的回顾，并建立两者之间的联系，以提供进一步的研究启示。此外，随着三维传感器和三维重建技术的发展，一个新的研究方向也应运而生。本文回顾了跨源点云配准的发展，并建立了一个新的基准来评价现有的配准算法。此外，本调查总结了基准数据集，并讨论了跨不同领域的点云配准的应用。最后，本文提出了这一快速发展领域的潜在研究方向。

介绍

随着LiDAR、Kinect等高精度传感器的快速发展，点云已成为表征三维世界的主要数据格式。由于传感器只能在有限的视野范围内扫描获取数据，因此需要采用配准算法生成完整的三维场景。点云配准是一种估计两帧扫描点云之间变换矩阵的问题。根据变换矩阵，我们可以将同一个三维场景或物体的部分扫描点云合并成一个完整的三维点云。点云配准的价值在于它在众多计算机视觉应用中的独特而关键的作用。首先，三维重建。生成完整的三维场景是各种计算机视觉应用的基础和重要技术，包括自动驾驶中的高精度三维地图重建、机器人技术中的三维环境重建和实时监控地下采矿的三维重建。例如，点云配准可以为机器人应用中的路线规划和决策构建三维环境。另一个例子是在地下采矿空间进行大型三维场景重建，以准确监控采矿安全。第二，三维定位。在三维环境中定位移动智能设备的位置对于机器人技术尤为重要。例如，无人驾驶汽车估计其在地图上的位置（例如<10cm）及其到道路边界线的距离。点云配准可以将当前的实时三维点云精确匹配到所属的三维环境中，提供高精度的定位服务。此应用程序表明，配准为智能系统（例如机器人或无驾驶汽车）提供了一个与3D环境交互的解决方案。第三，姿态估计。将一个点云A（3D实时视图）与另一个点云B（3D环境）对齐，可以生成与点云B相对的点云A的姿态信息，这些姿态信息可用于机器人的决策。例如，可以获得机器人手臂的姿势信息，从而决定移动到哪里以准确地抓取对象。姿态估计应用表明，该配准方法还提供了一种了解环境中agent信息的方法。由于点云配准在许多有价值的计算机视觉应用中扮演着重要的角色，因此迫切需要对点云配准进行全面的研究，以使这些应用受益。从优化的角度对配准问题进行了深入的研究[5]、[6]、[24]、[33]、[44]、[47]、[54]、[90]、[104]。现有的配准方法大多是通过对应搜索和变换估计两个过程来减小几何投影误差。这两个过程交替进行，直到几何重投影误差最小。在已知精确对应的情况下，变换估计有一个闭环形式的解[6]。近年来，三维点云深度学习技术有了很大的发展[114]、[20]、[17]、[107]、[96]。这些技术的目的是提取三维点云的特征并找到精确的对应关系。然后，使用这些对应关系来估计具有单独变换估计阶段的变换。在端到端的框架中，还结合了传统的配准优化策略和深度学习技术[40]、[16]、[3]、[99]。这些实验结果对点云配准具有较好的效果，在这些组合中表现更好的原因尚未总结。此外，随着三维传感器（如Kinect和Lidar）的发展，跨源点云配准成为一个新兴的研究课题。每种三维传感器都有其独特的优点和局限性。例如，Kinect可以生成密集的点云，而测量范围通常限制为5米。激光雷达在生成稀疏点云的同时具有很长的视距。这些不同类型的三维传感器的数据融合结合了它们的优点，这是一个跨源点云配准问题[43]、[41]、[42]。跨源点云配准在建筑施工、虚拟增强现实、无人驾驶车辆等领域有着广泛的应用。例如，建筑领域将3D CAD模型与实时激光雷达扫描进行比较，以评估当前的施工质量。同源点云配准和跨源点云配准的发展也需要一个全面的综述来总结最近的进展。虽然目前对点云配准的研究较少[15]、[78]、[87]，且主要集中在传统点云配准的观点上。[116]调查深度学习技术。然而，跨源点云配准的最新发展还没有被综述，传统的深度学习方法和现代深度学习方法之间的联系也没有被分析。为了促进点云配准技术在工业界和学术界的发展，本文对点云配准技术（1992-2021年）的发展进行了全面的综述，包括同源和跨源、传统的优化方法和现有的深度学习方法。此外，我们还总结了优化策略和深度学习技术之间的联系。此外，近年来基于深度学习的配准技术在同源点云数据库上取得了很高的配准精度，而跨源点云的配准性能却鲜有报道。这项调查将建立一个基准，以评估最新的最先进的配准算法上的跨源数据集。

本文的贡献

我们的贡献。本文的主要贡献如下：

综述。本文对同源点云配准进行了最全面的概述，包括传统的优化方法和现代深度学习方法（1992-2021）。我们总结了这些挑战，分析了每一类配准方法的优点和局限性。此外，本文还总结了传统优化方法与现代深度学习方法的联系。
不同源点云配准。本文首次对跨源点云配准进行了文献综述。这项调查为不同3D传感器（如Kinect和Lidar）的数据融合研究提供了见解。图1显示了点云配准的分类。
新的比较。我们建立了一个新的跨源点云基准。然后，在新的跨源点云基准上对现有的最新配准算法的性能进行了评估和比较。这项调查可以为选择和开发新的跨源点云应用配准方法提供指导。
应用和未来方向。总结了点云配准的潜在应用，探讨了实际应用中的研究方向。此外，本文还提出了点云配准领域未来可能的研究方向和有待解决的问题。

图1 点云配准分类

点云配准的挑战

同源点云配准

同源点云的配准是指从同一类型的传感器，但在不同的时间或视角下获取的点云在进行配准问题中存在的挑战，其主要包含了

噪声和离群值。在不同的采集时间，环境和传感器噪声是不同的，采集到的点云在同一三维位置附近会包含噪声和异常值。
部分重叠。由于视点和采集时间的不同，采集到的点云只是部分重叠。

跨源点云配准

跨源点云配准的挑战，点云传感器经历了快速发展。例如，Kinect已经在许多领域得到了广泛的应用。激光雷达变得使用价格合理，并已集成到移动电话（如iPhone 12）中。而且，多年来三维重建技术的发展使得利用RGB相机生成点云成为可能。尽管在点云采集方面有这些改进，但每个传感器都有其独特的优点和局限性。例如，Kinect可以记录详细的结构信息，但视距有限；Lidar可以记录远处的物体，但分辨率有限。许多证据[77]，[41]表明，来自不同传感器的融合点云可为实际应用提供更多的信息和更好的性能。点云融合需要跨源点云配准技术。由于点云是从不同类型的传感器获取的，并且不同类型的传感器包含不同的成像机制，因此点云配准问题中的跨源挑战要比同源点云配准挑战复杂得多。这些挑战主要可以分为

噪声和异常值。由于不同采集时间的采集环境、传感器噪声和传感器成像机制不同，采集到的点云在同一个三维位置附近会包含噪声和离群点。
部分重叠。由于视点和采集时间的不同，采集到的点云只是部分重叠。
密度差。由于不同的成像机制和不同的分辨率，捕获的点云通常包含不同的密度。
尺度变化。由于不同的成像机制可能具有不同的物理度量，因此捕获的点云可能包含尺度差异。

点云配准方法的分类

本节介绍不同的点云配准，如图1所示。我们将点云配准分为两类：同源配准和跨源配准。同一源的配准可以进一步分为基于优化的配准方法、特征学习方法、端到端学习方法。图2总结了这些类别的框架。

（a）一种基于优化的点云配准框架。给定两个输入点云，迭代估计这些点云之间的对应关系和变换。算法输出最优变换T作为最终变换矩阵。（b）基于特征学习的点云配准框架。给定两个输入点云，利用深度神经网络对特征进行估计。然后，对应和变换估计迭代运行以估计最终变换矩阵T。

（c）一个基于端到端学习的点云配准框架。给定两个输入点云，使用端到端框架来估计最终变换矩阵T。（d）一个跨源点云配准框架。在给定两个输入点云的情况下，设计了一个配准框架来克服跨源问题并估计最终的变换矩阵T。下面，我们将对每一类进行简要介绍，并分析其优点和局限性。

基于优化的配准方法

基于优化的配准是利用优化策略估计变换矩阵。大多数基于优化的配准方法[104]、[54]、[78]、[15]包含两个阶段：对应搜索和变换估计。图（a）总结了这一类别的主要过程。对应点搜索是在另一个点云中找到每个点的匹配点。变换估计就是利用对应关系来估计变换矩阵。这两个阶段将进行迭代，以找到最佳的变换。在迭代过程中，初始的对应可能并不准确。随着不断的迭代，对应关系将变得越来越精确。然后，利用精确的对应关系，使估计的变换矩阵变得精确。通过比较点的坐标差或点点特征差，可以找到对应关系。这一类的优点有两个：1）严密的数学理论可以保证它们的收敛性。2）它们不需要训练数据，可以很好地推广到未知场景。这一类的局限性在于，需要许多复杂的策略来克服噪声、异常值、密度变化和部分重叠的变化，这将增加计算成本。

特征学习的配准方法

特征学习的配准方法不同于经典的基于优化的配准方法，特征学习方法[114]、[19]、[35]采用深度神经网络来学习鲁棒的特征对应搜索。然后，通过一步估计（例如RANSAC）而无需迭代地确定变换矩阵。图（b）总结了这一类的主要过程。例如，[114]使用AlexNet从RGB-D数据集学习3D特征。[19] 提出了一种基于邻域点分布的局部PPF特征，并将其输入到网络中进行深度特征学习。[35]提出了一种旋转不变的手工特征，并将其输入深度神经网络进行特征学习。所有这些方法都使用深度学习作为特征提取工具。通过开发复杂的网络结构或损失函数，他们的目标是通过学习具有区别性的特征点来估计健壮的对应关系。基于深度学习的点特征方法
1）可以提供鲁棒、准确的对应搜索。2）通过简单的RANSAC方法，精确的对应可以得到准确的配准结果。这种方法的局限性有三个方面：1）需要大量的训练数据。2）在未知场景中，如果场景与训练数据存在较大的分布差异，则配准性能会急剧下降。3）他们使用一个单独的训练过程来学习一个独立的特征提取网络。所学习的特征网络是确定点匹配关系而不是配准。

基于端到端学习的方法

利用端到端神经网络解决配准问题。该方案的输入是两帧点云，输出是对齐这两点云的变换矩阵。与上述以点特征学习为重点的特征学习方法不同，将变换估计嵌入到神经网络优化中。神经网络优化与变换估计是分离的。图（c）总结了这一类的主要过程。端到端学习方法的基本思想是将配准问题转化为回归问题。例如，[109]尝试从要对齐的点云中学习特征，然后从特征中回归转换参数。[97]提出了一种配准网络，用于建立原始点集和目标点集之间的相关性，并使用定义的相关性预测变换。[27]提出了一种用于定位的自动编码器配准网络，它结合了超点提取和无监督特征学习。[64]提出了一种关键点检测方法，并同时估计相对姿态。FMR[40]提出了一种特征度量配准方法，将配准问题从以前的最小化点投影误差转化为最小化特征差。该方法将深度学习与传统的Lucas-Kanade优化方法相结合，是特征度量配准的一项开创性工作。这一类的优点有两个方面：1）神经网络专门针对配准任务进行设计和优化。2）它既可以利用传统数学理论的优点，又能利用深层神经网络的优点。现有方法的局限性有两个方面：1）回归方法将变换参数估计看作黑匣子，距离度量在基于坐标的欧氏空间中进行测量，该空间对噪声和密度差敏感。2）特征度量配准方法考虑了局部结构信息，这对配准非常重要。

跨源点云配准方法

跨源点云配准是对不同类型传感器（如Kinect和Lidar）的点云进行配准。根据文献[77]，[41]，跨源点云配准由于噪声和离群点、密度差、部分重叠和尺度差等因素的综合作用而更具挑战性。一些算法[42]、[41]、[43]、[39]使用复杂的优化策略，通过克服跨源挑战来解决跨源点云配准问题。例如，CSGM[41]将配准问题转化为图匹配问题，并利用图匹配理论来克服这些挑战。最近，FMR[40]展示了使用深度学习对齐跨源点云的性能。这些方法都试图利用优化策略或深层次的神经网络来克服交叉源的挑战来估计变换矩阵。跨源点云配准的优点是结合多个传感器的优点，为增强现实、建筑施工等计算机视觉任务提供全面的三维视觉信息。然而，现有的配准方法存在精度低、时间复杂度高等缺陷，尚处于起步阶段。近年来，随着三维传感器技术的快速发展，由于缺乏跨源点云配准的研究，使得传感器技术与跨源应用之间存在一定的差距。

点云配准方法概述介绍

基于优化的配准方法

基于优化的方法的关键思想是开发一个复杂的优化策略来实现方程1中非线性问题的最优解。由于同一来源挑战的影响，这一非线性问题变得具有挑战性。图（a）总结了这一类的主要过程。基于优化策略，本节概述了四种优化方法：基于ICP的变种方法、基于图优化的、基于GMM的和半定的配准方法。（具体方法的介绍及相关文献可查看原文）图3中展示出了几个里程碑方法。

图3 按时间顺序概述的基于优化的相关方法

特征学习配准方法

特征学习方法的主要思想是利用深度特征来估计准确的对应关系。然后，可以使用一步优化（例如SVD或RANSAC）来估计变换，而无需在对应估计和变换估计之间进行迭代，如图b所示。研究方向是设计先进的神经网络来提取显著特征。对于深度学习的数据格式，这些配准方法分为基于体素数据的配准和基于点云的配准。

3DMatch 总体框架，3DMatch从RGBD图像训练并行网络。3DMatch的输入是三维体素数据，输出是一个局部面片的512维特征。3DMatch可以提取三维点云的局部特征。

PPFNet基于点云的配准方法的总体框架图4中示出了几个里程碑方法。

图4 按时间顺序概述的基于特征学习配准方法。

基于端到端学习的配准

端到端学习配准方法的主要思想是将两帧点云送入神经网络，输出为这两个点云之间的变换矩阵。有两类：（1）将配准视为回归问题，并使用神经网络拟合回归模型进行变换矩阵估计[97]、[109]、[20]、[75]；（2）将神经网络与优化相结合，将配准视为一个端到端的框架[40]，[16]。图5中示出了几个里程碑方法。

图5 按时间顺序概述的端到端学习的配准方法。

跨源点云配准

本节首次全面介绍了跨源点云配准。现有的跨源配准方法分为两类：基于优化的方法和基于学习的方法。研究方向是设计高级配准框架以克服交叉源挑战。图6中示出了几个里程碑方法。

图6 按时间顺序概述的跨源点云配准方法

基于优化的方法与深度学习之间的联系

深度学习技术可以作为一种特征提取工具来代替原始点坐标。传统的优化方法为算法的收敛性提供了理论保证。首先，提出了一种改进的损失计算策略，利用优化策略从学习到的特征中计算出一个估计的变换。其次，计算估计变换与地面真值之间的损失。许多现有的方法[99]，[40]证明，结合这两种方法的优点可以达到高精度和高效率。例如，deep-closest point（DCP）[99]使用deep特征来估计对应关系，并使用SVD来计算变换。FMR[40]应用深度学习来提取全局特征，并使用Lukas-Kanade（LK）算法来最小化特征差异。DeepGMR[112]使用深度学习来计算高斯模型和点之间的对应关系，并基于GMM优化来优化变换。这些现有的方法为解决配准问题提供了一些常规优化和深度神经网络的初步尝试。然而，无论是精度、鲁棒性还是效率都有待进一步提高。将传统的优化理论与现代的深度神经网络相结合，是一种提高配准精度和效率的有效方法，从理论上保证了现有的基于深度学习的配准方法。研究方向是结合现有的优化策略，设计先进的损失计算策略对神经网络进行优化。

评估

本节总结现有度量方法，并总结现有方法在现有同一源数据集上的性能。然后，介绍了一种新的跨源数据集，并对现有的配准方法进行了比较实验。

表1 现有同源和跨源数据集的摘要。

一个例子显示了跨源点云的挑战。交叉源对中普遍存在大量噪声、离群点、密度差和部分重叠

应用

点云配准是许多应用中的关键技术。本节介绍了点云配准在各种应用中的作用，并总结了各种应用中的研究方向。A、建筑信息模型（building information modeling，简称BIM）是新一代的信息存储和处理系统，广泛应用于建筑工程和建筑管理中。它通常包含建筑物的三维模型和属性。以前的计算机辅助BIM设计仅限于简单的指导和理论规划，因为没有与真实的物理世界进行交互。点云可以克服这一限制，并提供精确细节地将数字模型与物理空间对齐的能力。

BIM模型中的点云B、在矿区的开采空间

C、三维传感器在自主驾驶中得到了广泛的应用，能够提供高精度的三维环境传感数据。点云是存储这些三维数据的有效方法。由于每个传感器在每次扫描中都有视图限制，因此点云配准对于提供具有更大视图的高质量三维数据以实现自主驾驶至关重要。配准的主要贡献包括两个方面：创建大规模的三维扫描点云和提供姿态估计。

开放性问题和未来方向

基于以上文献综述和应用综述，开放性问题有两个方面：（1）通过克服相同来源和跨来源的挑战，实现高精度和鲁棒的配准。（2）运行速度快，精度高。在这一部分，我们提出了四个未来的研究方向。

鲁棒准确的配准，点云是三维环境的记录。然而，由于噪声和异常值的变化，实际数据非常复杂。这些变化可能来自不同采集时间的传感器或环境变化。
效率，配准效率是另一个有待研究的问题，也是今后的研究方向。最近的点云通常包含数百万个点，传统的优化方法如ICP将非常缓慢。然而，目前许多先进的方法都要求ICP进行细化以获得较高的精度。
部分重叠部分重叠表示只有部分点云描述相同的三维环境，而其他部分则不同。部分重叠率可能非常小，例如小于20%。这种重叠率将是非常具有挑战性的，因为重叠率的搜索是一个组合问题，即使是我们的人类需要很多时间来手动对齐两个部分重叠的点云以找到公共区域。
深度学习与配准数学理论的融合，已有的许多实验[35]、[6]、[41]表明，直接应用配准数学理论会耗费大量的计算时间，而直接应用深度学习并不能保证精度。直接结合深度学习和ICP仍然需要消耗很多的计算时间。

总结

本文对同源域和跨源域的点云配准进行了全面的综述。在这项调查中，我们第一次对跨源点云配准进行了回顾，并评估了现有的跨源数据集最先进的配准方法。在此基础上，总结了点云配准的应用前景。最后，提出了点云配准领域未来的研究方向和有待解决的问题。

参考文献

向上滑动阅览

[1] Fernando J AGUILAR, Ismael FERNANDEZ, Juan A CASANOVA, ´ Francisco J RAMOS, Manuel A AGUILAR, Jose L BLANCO, and ´ Jose C MORENO. 3d coastal monitoring from very dense uav-based ´ photogrammetric point clouds. In Advances on Mechanics, Design Engineering and Manufacturing, pages 879–887. Springer, 2017.

[2] HA Almohamad and Salih O Duffuaa. A linear programming approach for the weighted graph matching problem. IEEE Transactions on pattern analysis and machine intelligence, 15(5):522–525, 1993.

[3] Yasuhiro Aoki, Hunter Goforth, Rangaprasad Arun Srivatsan, and Simon Lucey. Pointnetlk: Robust & efficient point cloud registration using pointnet. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7163–7172, 2019.

[4] Simon Baker and Iain Matthews. Lucas-kanade 20 years on: A unifying framework. International journal of computer vision, 56(3):221–255, 2004.

[5] Florian Bernard, Christian Theobalt, and Michael Moeller. Ds*: Tighter lifting-free convex relaxations for quadratic matching problems. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

本文仅做学术分享，如有侵权，请联系删文。下载1在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。下载3在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

综述|2021最新关于点云配准的全面介绍