TT-SLAM：用于平面环境的密集单目SLAM（IEEE 2021）

3D视觉工坊

专注SLAM、点云、三维重建、结构光、自动驾驶、机械臂抓取等

发表于：2021 IEEE International Conference on Robotics and Automation (ICRA)

链接：https://ieeexplore.ieee.org/document/9561164

作者：Xi Wang Univ Rennes, Inria, CNRS, Irisa, France

Marc Christie Univ Rennes, Inria, CNRS, Irisa, France

Eric Marchand Univ Rennes, Inria, CNRS, Irisa, France

翻译：幸运的石头 |来源：微信公众号「3D视觉工坊」

摘要

本文提出了一种使用单目相机进行密集平面重建的新型视觉 SLAM 方法：TT-SLAM。该方法利用基于平面模板的跟踪器 (TT) 来计算相机位姿并重建多平面场景表示。通过对超像素化区域支持的一组模板跟踪器进行聚类，同时估计多个单应性。与基于 RANSAC 的多单应性方法 [1] 相比，数据关联和关键帧选择问题由模板跟踪器的连续性处理。对所有单应性应用非线性优化过程以提高姿态估计的精度。实验表明，所提出的方法优于基于 RANSAC 的多单应性方法 [1] 以及其他密集方法 SLAM 技术，如 LSD-SLAM 或 DPPTAM，

介绍

对 SLAM 技术（同步定位和建图）的研究在机器人界引起了极大的关注，并导致了各种实际的案例：室内和室外、城市和野外。稀疏 SLAM 方法要么依赖于像素级信息的直接对齐，要么依赖于最小化提取关键点和类似低级图像特征的重投影误差[2]、[3]、[4]。

然而，可以利用更高级的几何特征（例如线和平面）并将其集成到视觉 SLAM 系统中，因为它们提供了更多的语义抽象，并且比基于点的图像特征更鲁棒。

例如，平面是人造环境和物体中普遍存在的几何特征，是在视觉跟踪和 SLAM 任务中具有价值的特征。平面模型只需要一小组参数，但可以以密集的方式重建复杂的场景。使用表达图像和世界空间之间关系的单应性，平面模型也很容易估计和跟踪。此后，许多跟踪算法都基于单个单应变换：SLAM [5]、目标视觉跟踪[6]或机器人视觉伺服[7]。

虽然单个单应性约束可以很容易地用于在具有主导平面的场景上跟踪任务，但这种假设严重限制了对更一般环境的应用。

因此，许多贡献探索了多平面表示的使用。王等人[1]在超像素的帮助下，在多个平面结构下提出了一种基于ransac 的相对相机姿态估计。受这项工作的启发，本文提出了一种多平面 SLAM 框架，使用基于模板的跟踪器和超像素来估计相机轨迹并从单目图像序列重建密集的部分映射（见图1）。

我们的贡献是：（1）一种借助超像素初始化模板跟踪器的新方法，（2）一种用于处理平面分割和姿态估计的均值偏移聚类系统，以及（3）一种用于提高精度和通过合并模板跟踪器估计来实现鲁棒性。

图1：我们提出了一种视觉 SLAM 方法，该方法跟踪和聚类基于模板的跟踪器，估计相机位姿，并在单目相机获取的彩色图像序列上映射三维多平面环境。每种颜色代表一个不同的平面。

相关工作

在平面世界中估计相机位姿和建图的主题下可以找到一系列相关工作。一些依赖于单一的单应性假设，其中工作空间通常是单主平面场景[8]。Pirchheim 和 Reitmayr [5]设计并开发了一种用于单平面环境的移动增强现实 SLAM 系统。将该过程与 IMU（惯性测量单元）相结合也有助于提高精度并消除单应性分解过程中的歧义[9]、[10]。

另一类方法通过曼哈顿假设来处理世界：环境中的所有三维平面都相互垂直。这样的假设非常适合标准的室内和城市场景，并简化了模型，提高了特定用例[10]、[11]、[12]中的性能和精度。

许多方法通过利用 RGB-D 相机的深度信息来依赖平面场景 SLAM 和视觉跟踪系统。Kaess [13]提出了一种用于 3D 平面的四元数公式，以提高优化期间的收敛速度。萧等人。[14]将先前的工作扩展到基于实时关键帧的 RGBD 平面 SLAM：它借助几何和光度信息进行基于关键帧的局部里程计，以进行快速姿态估计。然后，所有关键帧数据都由使用增量平滑和建图技术 (iSAM) 的因子图处理。

由深度学习神经网络驱动的方法也受到欢迎，并在许多计算机视觉任务中显示出改进的性能。Pop-Up SLAM [12]在平面场景中表现出良好的性能，尤其是在环境无纹理的情况下。Yang 和 Scherer [15]提出通过边界框添加 3D 对象检测作为曼哈顿结构化环境的另一个约束。

在 SLAM 技术中使用超像素引起了社区的兴趣。超像素是一组共享空间和色彩相似性的像素，通常通过聚类或分割方法生成：经典作品包括 SLIC [16]、SEEDS [17]和图形分割超像素[18]。在计算机视觉和机器人视觉领域，该技术被利用，因为它提供了粗略的平面估计。

更具体地说，Concha 和 Civera 建议将超像素技术集成到稀疏[19]和密集[20] SLAM 系统中，以增强映射结果。这个想法包括一个蒙特卡洛排名，以找到超像素表示的平面的对应关系和初始 3D 姿势。该论文提出了一种优化框架，以使用与 PTAM 系统分开估计的已知相机位姿来改进平面位姿。后来，在 DPPTAM [20]中，超像素被用于半密集跟踪系统。类似于[19]，平面估计以与半密集 SLAM 系统发现的相机姿态解耦的方式处理。三维点上的 Ransac 和 SVD 用于估计平面方程。因此也设计了具有超像素信息的密集映射优化技术。

最近，[1]提出了基于多个单应性的多个平面和相机位姿的耦合估计。在关键点上应用专用的 RANSAC，并通过多个单应性消除平面估计中的歧义，以同时实现稀疏跟踪和密集映射。

基于模板的跟踪器是机器人技术中众所周知的技术，通过注册不同的原始几何模型wrt各种度量来跟踪和估计平面图像块：例如，平方差之和（SSD），零均值归一化互相关（ZNCC），和互信息（MI）。平面跟踪器通常通过优化方法估计模板补丁和查询图像之间的单应变换。许多应用都源自基于模板的跟踪器，包括增强现实[21]、机器人控制[22]等。与 RANSAC 方法相比（例如[ 1]），使用模板跟踪器连续提取单应性有以下优点：1）很好地解决了场景中存在多个平面时的数据关联问题；2）它提供了对跟踪结果的连续观察，因此系统在处理关键帧选择问题时具有更大的灵活性；3) RANSAC 方法在处理多个平面时往往需要更高的计算成本，因为模板跟踪器在结果方面更轻且具有确定性。

结合模板跟踪器的优势和多单应位姿估计的工作[1]，我们提出了一种多平面vSLAM的新方法。它支持：1）一种以密集方式同时跟踪相机位姿和建图多个平面环境的新方法；2) 一种为 vSLAM 应用生成、聚类和利用模板跟踪器的方法，该方法支持超像素图像；3) 一种在模板跟踪器上应用基于单应性的非线性优化的方法，作为优化方案，以实现更好的姿态估计和建图质量。

概述

我们提出 TT-SLAM 作为一种新颖的视觉 SLAM 技术，它依赖于平面环境的模板跟踪器 (TT)。它包含以下模块（参见图 2中的概述）：(a) 模板跟踪器的生成和跟踪：我们在超像素化图像的区域上添加模板跟踪器，并在图像序列中跟踪它们；(b) 分解平面的聚类：我们依靠均值偏移聚类算法从单应性中对相似的分解平面进行分组，以提取多平面结构；(c) 非线性优化器：我们在模板跟踪器上应用非线性优化框架，以在单个输入图像和整个图像序列上同时细化相机位姿和多个平面（类似于捆绑调整）。所有模块都将在以下部分中详细介绍。

多个模板跟踪器

我们工作的主要思想是依靠多个模板跟踪器来估计相机姿势和 3D 场景的密集平面映射。

平面模板跟踪器是一种在帧序列上跟踪平面图像区域的技术。该技术将单应变换H从第一张图像中的参考区域输出到当前图像。在平面场景中，单应变换2H1∈ S L ( 3 )用于描述三维平面从一个图像I 1到另一个图像I 2的变换。当相机被内在校准时，即内在矩阵K已知，来自I 1和I 2的所有像素都可以表示为归一化的三维坐标，表示为：p 1和p2∈R3. 因此，单应矩阵是平面区域内这些点之间的约束：

p2=2H1p1

图 2：我们系统的流程图，它处理输入图像序列 (subfig.a) 以执行超像素化 (subfig.b)。在 subfig.c 中，执行跟踪和聚类模板跟踪器（不同的颜色代表 3D 中不同的找到平面，参见 subfig.d）。最后，通过细化器模块，我们的方法能够在不应用任何曼哈顿假设的情况下，在保持井平面垂直性的密集平面环境中恢复相机轨迹。

这个变换实际上是由一个旋转矩阵组成的2R1∈ S O ( 3 ), 一个平移向量2吨1∈R3和第一帧中的法向量我1：n1= ( a , b , c)⊤∈R3（等式 1）。然后将相关的三维平面表示为p⊤n1= d，在哪里p ∈R3是平面上的三维点，d是到原点的垂直距离：

2H1=2R1+2t1dn⊤1(1)

已经提出了不同的方法来计算图像之间的单应矩阵，一些依赖于关键点[23]，而另一些则利用像素级信息[24]。对于大多数模板跟踪问题，它被视为像素级别的差分图像对齐问题。

差分图像对齐的目的是估计图像模板I *在多帧中的位移ρ 。它可以被视为帧到帧的跟踪过程，其中I *通常是从参考帧中提取的感兴趣区域 (RoI)。然后需要一个相似性度量f来表示参考图像和扭曲图像之间的距离。通过上述定义，可以描述一个优化问题下的差分图像对齐问题：

我们的目标是找到位移ρ^t在给定的度量f下最大化相似性。为了清楚起见，翘曲函数w是一个滥用的 b 符号，用于定义由ρ参数化的图像I的一般变换。在平面单应性估计的背景下，我们搜索ρ ∈ s l ( 3 )它有8个参数。为了加速搜索过程，通过预先计算参考图像的导数，提出了逆合成公式技术（详见[25]、[6]）。

与基于模板的跟踪器的常见应用不同，其中感兴趣区域通常是先验已知的或通过用户交互选择的，我们的系统需要通过计算与一个粗略的平面假设。为了解决这个问题，我们依靠超像素图像分解。超像素被定义为一组共享强色彩一致性的连接像素（例如，SLIC [16]）。我们在这里假设每个超像素都可以被视为适合基于模板的跟踪器的潜在平面区域。

图 3：模板跟踪器生成过程的示例。左图显示了超像素化图像的聚类轮廓。多边形区域和具有三角化 RoI 的相应模板跟踪器分别显示在中间和右侧图像中。

在初始化过程中，每个超像素都被分配为基于模板的跟踪器的 RoI，以便跟踪后续帧中的区域。由于超像素边界通常是非平面的并且会扰乱跟踪质量，因此我们建议通过在侵蚀的超像素轮廓上应用 Teh-Chin 链近似[26]和 Ramer-Douglas-Peucker 算法[27]来简化超像素的轮廓。然后将这些区域表示为 Delaunay 三角剖分，并将其视为跟踪 RoI（参见图 3）。虽然超像素只提供了一个粗略的先验区域平面度，但分配有非平面或多平面区域的跟踪器将在跟踪优化过程中迅速导致发散并且可以被移除。

与我们之前的工作[1]相比，所有单应性都是从一个给定的关键帧（即相同的参考图像）估计的，可以随时考虑和添加新的模板跟踪器。这降低了错误关键帧选择的风险，这是[1]中确定的一个问题。因此，设计了一种策略来决定何时添加新的模板跟踪器，方法是选择无法与现有模板跟踪器重叠的超像素，只需测量它们在图像表面上重叠的区域比率即可。因此，对于每个新的传入帧，我们将新计算的超像素与当前有效的跟踪器进行比较，并在未覆盖的那些上添加新的跟踪器。对于每个超像素，我们的比率定义如下：

S tt和S sp分别是模板跟踪器和超像素的区域。

聚类和分解

一旦我们从不同的模板跟踪器 { H } 中获得一组单应性，下一步就是对单应性进行聚类以获得简化且更好的多平面表示。在我们之前的工作[1]中，这是通过赢家通吃 RANSAC 在检测到的关键点上识别多个平面来实现的。在这里，我们依靠均值偏移聚类技术来确定某些跟踪器是否属于同一平面。

聚类是将相似数据组合在一起并根据特定指标进行分类的任务：经典作品包括 K-means [28]、均值偏移[29]等。聚类在计算机视觉和有远见的机器人应用程序中很受欢迎，因为它能够揭示模式从数据方面：例如，[30]使用均值偏移技术从室内场景中的消失点估计无漂移旋转，以解耦 SLAM 中的旋转和平移。

在我们的工作中，我们期望一个聚类系统能够分离不同的跟踪器并将相似的跟踪器分组，因为它们正在跟踪相同的 3 维平面。由于我们事先不知道场景中的平面数量，因此与其他聚类方法不同，它不需要初始种子数，因此均值偏移聚类成为处理这种情况的合适方法。理想情况下，如果所有的跟踪器都在同一个参考帧上初始化，我们可以直接在单应空间上应用均值偏移H ∈SL(3). 然而，由于前面提到的跟踪器添加了策略，分类不能直接在单应空间上执行，因为我们正在处理从不同参考帧初始化的跟踪器。相反，由于姿态估计是一个顺序跟踪问题，我们建议对以世界坐标表示的分解平面进行分类（参见公式 1 ），并在平面参数Π = {n, d }的空间中对它们进行聚类，其中 n是平面的法向量，d是到原点的垂直距离。

然而，一个经典问题是单应性分解的模糊性。不可避免地，分解单个单应性会产生两组R、t、n的结果，它们在几何上都是有效的。在没有额外信息的情况下，即使在应用正深度条件之后，至少存在两个歧义，除非R、t、n中的一个元素是先验已知的，例如，通过 IMU 信息或已知的表面法线。对于多个平面单应性，我们解决了这个问题[1]通过提议对平移向量的共同方向进行投票。我们在这项工作中采用相同的方法，不仅消除歧义，而且通过测量它们到投票共同方向的平移向量来过滤低质量模板跟踪器：如果没有一个平移向量足够接近歧义集中的共同方向，我们认为模板跟踪器本身可能被错误地初始化或分配了非平面区域。

分解后，我们得到一组以世界坐标表示的平面，简单地表示为 { Π }。不是在未正确定义欧几里德距离的平面空间 { Π } = {n, d } 上进行聚类，而是通过首先考虑法线向量 { n }，然后是d参数和-每个模板跟踪器的图像重心位置 { d , p c }，用于在本地对平面进行分组。我们在两个聚类层次上使用欧几里得度量，发现结果足够好，尽管平面法线空间在球体组上有自己的测地线度量（见图4用于聚类结果和对应的深度图像）。

图 4：中间子图中的聚类和匹配的模板跟踪器（相同颜色代表相同的聚类 3D 平面），并且在跟踪器区域（右）上生成对应的深度。

非线性多平面优化机和BA

A. 当前图像上的非线性细化器

鉴于在图像平面上执行的聚类，然后我们设计了一个细化过程以更好地利用来自多个跟踪器的信息并改进对相机姿态的估计q∈ s e ( 3 ) ∈R6（变换 { R , t } 的最小表示）和平面方程Π同时进行。在传统的 SLAM 系统中，该过程通常由非线性优化框架处理，该框架将提取的地标（如关键点）在图像空间上的重投影误差最小化（捆绑调整）。

为了处理单应变换，可以通过非线性最小二乘高斯-牛顿优化过程应用类似的过程，该过程最小化像素之间的重投影误差E(pn2-2H1pn1)2, n = 1 , ... ,ñp作为像素数，wrt 相机位姿q和平面参数Π 1 = { n 1 , d }。这表示为

为了计算重投影误差，我们使用每个模板跟踪器的 Delaunay 三角剖分过程中的顶点。

与[1]类似，在静态环境中共享多个单应性可以解释为跟踪器估计的一组单应性 { H i } 与世界坐标系中的共享变换之间的关系w吨○∈ S E ( 3 )（o表示帧的原点）由2 个局部变换表示w吨r一世（从模板跟踪器i的参考帧ri到其当前位置）对于所有跟踪器，其中i = 1，…，N tt作为跟踪器的数量：

因此，我们可以提出一个优化器，用于从多个跟踪器单应性同时估计相机位姿和平面方程。请注意，我们已经知道通过均值偏移和数据关联从 { Π i } 到聚类和分组平面 { Π c } 的对应映射。在优化过程中，我们不是单独考虑每个跟踪器的每个平面，而是按照均值偏移聚类将平面分组到 ⇧ i中。

和pnw 和 Pnri 分别是模板跟踪器i的当前帧和对应参考帧的跟踪区域的顶点，它们的总和为和跟踪器的数量N tt。记住相机姿势qw^和平面方程ΠCw^实际上是在世界坐标中，因此是等式的变换。5从全局坐标到局部坐标是强制性的，因为单应性仅在参考坐标系和当前坐标系之间定义。为简单起见，我们表示通过滥用符号并隐藏方程式中的变换。6 .

优化的热启动可以直接从最后一个相机位姿给出，也可以通过搜索每个模板跟踪器的先前全局平面结果。在模板跟踪器的帮助下，平面数据关联不再是问题，因为我们已经知道哪个模板跟踪器生成每个平面。执行跟踪器的简单搜索和比较。

B. Bundle Adjustment-like Refiner

平面图优化器由一个优化框架组成，该框架细化所有关键帧的姿势及其通过平面匹配过程找到的公共平面。每个关键帧包含多个平面及其顶点。一旦在不同的关键帧上获得了联合平面信息，比如基于点的 SLAM 的全局 BA，这个过程就消除了漂移问题，减轻了尺度模糊性，并在整个序列中细化了相机轨迹。

以此类推，我们提出了一个捆绑调整（BA）系统，通过相互最小化重投影误差来细化每一帧的姿态和关节平面信息：

其中t和i是帧和跟踪器编号的索引，N t和N tt分别表示总帧和模板跟踪器数量。

C. 平面图

1）平面合并和关键帧：

我们还部署了一个平面合并方案，以在给定平面法向量n和正交距离d 的度量的情况下融合封闭平面。理想情况下，我们不依赖于精心选择的关键帧，例如[1]，因为关键点单应性容易出现翻译不足的错误。相比之下，模板跟踪器允许我们沿着序列跟踪平面，并等到估计稳定后再生成关键帧。

2) 模板拒绝：

与基于 RANSAC 的方法不同，模板跟踪器最大化区域中所有像素的相似性。这使得异常值抑制对于 SLAM 系统至关重要：任何跟踪不良的模板跟踪器都能够在整体相机和平面估计中添加噪声。除了应用诸如 Huber 损失[31]之类的稳健损失函数外，我们还提出了一种模板拒绝程序来防止跟踪不良的模板。这里选择三个要点来过滤掉不良跟踪器：

跟踪器优化导致的缺乏收敛或高跟踪成本，这通常发生在初始化无纹理或非平面区域时。
歧义消除过程中的投票距离：如果没有一个计算的解决方案接近共同投票的平移方向。
不稳定模板：我们根据其平面方程监控每个模板，并修剪无法生成稳定平面以测量其参数的跟踪器。

实验与讨论

我们在两种不同的场景中测试我们提出的方法：室内和室外环境。

对于室内环境，我们从最简单到最复杂的三个层次进行难度和复杂度测试：单平面场景、多平面场景和复杂的多平面真实房间。

单个的（fr_nstr_str_loop) 和多个 (fr_str_far) 平面场景使用 TUM RGB-D 数据集[32]进行测试，该数据集也被许多平面或密集 SLAM 方法[20]、[33]、[1]使用。场景由丰富的纹理平面结构和相对均匀的颜色分布区域组成。它对超像素分解和模板跟踪器提出了挑战，因为有时 RoI 可能会在两个不同平面的中线产生并误导以下估计。然而，所提出的系统可以很好地处理单个和多个平面场景，如表所示。I用于比较绝对姿势误差 (APE) 与 ORB-SLAM [2]、LSD-SLAM [3]、多级映射[33]，DPPTAM [20]和我们之前的工作：一种基于ransac 的多平面方法[1]。我们在子表中演示fr_nstr_loop和fr_str_far适用于单平面和多平面场景。我们的方法优于所有密集和 RANSAC 方法，并且与仅提供稀疏点云映射的最先进的基于单目稀疏关键点的 SLAM [2]相比，达到了良好的精度水平。关于单平面场景中与[2]相比精度下降的一种解释（fr_nstr_loop) 是在不使用关键点和专门设计的重定位模块的情况下，系统往往会在跟踪过程中累积误差，并且会受到图像采集过程中运动模糊的负面影响。它还解释了其他密集方法的不良表现。APE沿序列比较fr_str_far如图5所示，我们的方法在整个轨迹上产生了较低级别的误差。生成的平面图见图6。密集的平面图是通过根据每帧计算的平面方程重新投影跟踪器区域来创建的。据观察，该地图在不应用任何曼哈顿假设的情况下很好地保存了垂直度。

室内场景的第二个实验是无人机数据集 EuRoc [34]：无人机在飞行序列的测试室中记录的灰度数据集。我们截取场景的一部分（约 400 帧）v1_01_easy因为该环境不是专门为平面 SLAM 设计的，并且一些无纹理的部分和区域无法通过模板跟踪器。如表第三部分的结果所示。I ，与所有密集方法相比，我们还实现了良好的精度水平，甚至在中值误差度量上优于 ORB-SLAM [2] 。

图 5：序列的绝对姿势误差 (APE) 度量fr_str_far数据集[32]表明，我们的密集映射方法优于所有密集和半密集方法，并且与仅提供稀疏点云图的 ORB-SLAM 相比，达到了不错的精度水平

图 6：由我们的方法生成的数据集 TUM [32]的 3D 多个（子图 a）和单平面图（子图 b）。我们提出的方法能够同时估计相机轨迹和平面地图表示。

表 I：ATE 评估：所提出的方法 (TT-SLAM) 优于 DPPTAM [20]、LSD-SLAM [3] 和多级映射 [33]、基于 ransac 的多单应性姿势估计 [1]。尽管落后于 ORB-SLAM [2] 性能（没有平面假设的关键点稀疏 SLAM），但我们的方法提供了密集的地图表示。（*表示在跟踪过程中丢失了一部分，-表示没有报告数据，x表示初始化失败）

对于户外实验，我们在一个类似走廊的环境场景中，在手持灰度数据集[35]的序列上测试我们的系统。图 7显示我们的系统从输入序列中检索走廊的垂直平面结构以及相机轨迹。

图 7：在数据集[35]上重建，坐标表示相机姿势。在不应用曼哈顿假设的情况下，多平面环境得到了很好的保护。

结论

我们提出了一种通过模板跟踪器估计相机位姿和生成密集平面映射的新方法。跟踪器是从超像素化图像区域创建的。应用均值偏移聚类技术来合并相似的平面。最后，设计了一个基于优化的细化器来实现更好的性能。

我们的观点包含三个方向：首先依靠关键点等异构信息和深度信息来提高鲁棒性和跟踪质量。第二个方向在于使用深度学习分割和平面区域检测而不是超像素。第三，我们的目标是利用平面地图在一般 SLAM 系统中进行重定位任务和数据关联。

参考文献：

1.X. Wang, M. Christie and E. Marchand, "Relative pose estimation and planar reconstruction via superpixel-driven multiple homographies", IEEE/RSJ Int. Conf. on Intelligent Robots and Systems IROS’20, 2020.

2.R. Mur-Artal, J. M. M. Montiel and J. D. Tardós, "Orb-slam: A versatile and accurate monocular slam system", IEEE Trans. on Robotics, vol. 31, no. 5, pp. 1147-1163, Oct 2015.

3.J. Engel, T. Schöps and D. Cremers, "Lsd-slam: Large-scale direct monocular slam", European conference on computer vision, pp. 834-849, 2014.

4.J. Engel, V. Koltun and D. Cremers, "Direct sparse odometry", IEEE Transactions on Pattern Analysis and Machine Intelligence, Mar. 2018.

5.C. Pirchheim and G. Reitmayr, "Homography-based planar mapping and tracking for mobile phones", 2011 10th IEEE International Symposium on Mixed and Augmented Reality, pp. 27-36, 2011.

6.A. Dame and E. Marchand, "Second-order optimization of mutual information for real-time image registration", IEEE Transactions on Image Processing, vol. 21, no. 9, pp. 4190-4203, 2012.

7.É. Marchand and F. Chaumette, "Feature tracking for visual servoing purposes", Robotics and Autonomous Systems, vol. 52, no. 1, pp. 53-70, 2005.

8.S. Benhimane and E. Malis, "Homography-based 2d visual tracking and servoing", The International Journal of Robotics Research, vol. 26, no. 7, pp. 661-676, 2007.

9.B. Guan, P. Vasseur, C. Demonceaux and F. Fraundorfer, "Visual odometry using a homography formulation with decoupled rotation and translation estimation using minimal solutions", 2018 IEEE International Conference on Robotics and Automation (ICRA), pp. 2320-2327, 2018.

10.O. Saurer, F. Fraundorfer and M. Pollefeys, "Homography based visual odometry with known vertical direction and weak manhattan world assumption", IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2012), pp. 25-30, October 11th, 2012.

11.A. Flint, D. Murray and I. Reid, "Manhattan scene understanding using monocular stereo and 3d features", 2011 International Conference on Computer Vision, pp. 2228-2235, 2011.

12.S. Yang, Y. Song, M. Kaess and S. Scherer, "Pop-up slam: Semantic monocular plane slam for low-texture environments", 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 1222-1229, 2016.

13.M. Kaess, "Simultaneous localization and mapping with infinite planes", 2015 IEEE International Conference on Robotics and Automation (ICRA), pp. 4605-4611, 2015.

14.M. Hsiao, E. Westman, G. Zhang and M. Kaess, "Keyframe-based dense planar slam", 2017 IEEE International Conference on Robotics and Automation (ICRA)., pp. 5110-5117, 2017.

15.S. Yang and S. Scherer, "Monocular object and plane slam in structured environments", IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 3145-3152, 2019.

16.R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua and S. Süsstrunk, "Slic superpixels compared to state-of-the-art superpixel methods", IEEE transactions on pattern analysis and machine intelligence, vol. 34, no. 11, pp. 2274-2282, 2012.

17.M. Van den Bergh, X. Boix, G. Roig, B. de Capitani and L. Van Gool, "Seeds: Superpixels extracted via energy-driven sampling" in European conference on computer vision., Springer, pp. 13-26, 2012.

18.P. F. Felzenszwalb and D. P. Huttenlocher, "Efficient graph-based image segmentation", International journal of computer vision, vol. 59, no. 2, pp. 167-181, 2004.

19.A. Concha and J. Civera, "Using superpixels in monocular slam", 2014 IEEE international conference on robotics and automation (ICRA), pp. 365-372, 2014.

20.A. Concha and J. Civera, "Dense Piecewise Planar Tracking and Mapping from a Monocular Sequence", Proc. of The International Conference on Intelligent Robots and Systems (IROS), 2015.

21.E. Marchand, H. Uchiyama and F. Spindler, "Pose estimation for augmented reality: a hands-on survey", IEEE transactions on visualization and computer graphics, vol. 22, no. 12, pp. 2633-2651, 2015.

22.F. Spindler, "Vision-based robot control with visp", ICRA 2018-Tutorial on Vision-based Robot Control, 2018.

23.Y. Kanazawa and H. Kawakami, "Detection of planar regions with uncalibrated stereo using distribution of feature points", British Machine Vision Conference, pp. 247-256, 2004.

24.A. Agarwal, C. Jawahar and P. Narayanan, "A survey of planar homography estimation techniques".

25.S. Baker and I. Matthews, "Lucas-kanade 20 years on: A unifying framework", International journal of computer vision, vol. 56, no. 3, pp. 221-255, 2004.

26.C. -H. Teh and R. T. Chin, "On the detection of dominant points on digital curves", IEEE Transactions on pattern analysis and machine intelligence, vol. 11, no. 8, pp. 859-872, 1989.

27.U. Ramer, "An iterative procedure for the polygonal approximation of plane curves", Computer graphics and image processing, vol. 1, no. 3, pp. 244-256, 1972.

28.J. MacQueen et al., "Some methods for classification and analysis of multivariate observations", 1967.

29.K. Fukunaga and L. Hostetler, "The estimation of the gradient of a density function with applications in pattern recognition", IEEE Transactions on information theory, vol. 21, no. 1, pp. 32-40, 1975.

30.P. Kim, B. Coltin and H. Jin Kim, "Linear rgb-d slam for planar environments", Proceedings of the European Conference on Computer Vision (ECCV), pp. 333-348, 2018.

31.P J. Huber, "Robust estimation of a location parameter" in Breakthroughs in statistics., Springer, pp. 492-518, 1992.

32.J. Sturm, N. Engelhard, F. Endres, W. Burgard and D. Cremers, "A benchmark for the evaluation of rgb-d slam systems", Proc. of the International Conference on Intelligent Robot Systems (IROS), Oct. 2012.

33.W. N. Greene, K. Ok, P. Lommel and N. Roy, "Multi-level mapping: Real-time dense monocular slam", 2016 IEEE International Conference on Robotics and Automation (ICRA), pp. 833-840, 2016.

34.M. Burri, J. Nikolic, P. Gohl, T. Schneider, J. Rehder, S. Omari, et al., "The euroc micro aerial vehicle datasets", The International Journal of Robotics Research, vol. 35, no. 10, pp. 1157-1163, 2016.

35.J. Engel, V. Usenko and D. Cremers, "A photometrically calibrated benchmark for monocular visual odometry", July 2016.

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com
1.面向自动驾驶领域的多传感器数据融合技术
 2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法：算法梳理与代码实现
 11.自动驾驶中的深度学习模型部署实战
 12.相机模型与标定(单目+双目+鱼眼）
13.重磅！四旋翼飞行器：算法与实战
 14.ROS2从入门到精通：理论与实战
 15.国内首个3D缺陷检测教程：理论、源码与实战

更多干货

欢迎加入【3D视觉工坊】交流群，方向涉及3D视觉、计算机视觉、深度学习、vSLAM、激光SLAM、立体视觉、自动驾驶、点云处理、三维重建、多视图几何、结构光、多传感器融合、VR/AR、学术交流、求职交流等。工坊致力于干货输出，为3D领域贡献自己的力量！欢迎大家一起交流成长~

TT-SLAM：用于平面环境的密集单目SLAM（IEEE 2021）

TT-SLAM：用于平面环境的密集单目SLAM（IEEE 2021）

Recommend

李锦记：百年味之道 - 精选 - 商界网 | 商界APP-专注于商人-企业以及商业思维

Report: Conversation intelligence helps contact centers feel 10x more prepared f...

Do More With Your Data With the Backblaze + Aparavi Joint Solution

永辉发布2022年上半年业绩预告，二季度同店比提升7.2%

Learning Resources for TypeScript

Python Dictionary - Part 3

揭秘吉利汽车金融版图：10倍杠杆撬动的增长飞轮

大厂齐造人，同向不同路：搭平台、养IP、工具人、大撒币

德国工厂持续拉胯，特斯拉Model Y的更多订单仍由上海主力承担

2022-07-15-美國女足-哥斯達黎加女足直播視頻/錄像/回放|黑白直播

About Joyk