IEEE Access 2022 | 动态场景中基于改进的DeepLabv3+的语义SLAM

专注SLAM、点云、三维重建、结构光、自动驾驶、机械臂抓取等

2022年1月13日接收，2022年2月20日接受，发布日期2022年2月24日，当前版本日期2022年3月2日。Digital Object Identifier 10.1109/ACCESS.2022.3154086

标题：Semantic SLAM Based on Improvement DeepLabv3+ in Dynamic Scenarios

作者：胡张芳，江赵, 罗元, 欧俊雄重庆邮电大学光电信息传感与技术重点实验室, 重庆 400065 通讯作者: 赵江 ([email protected])中国青年学者基金 61703067 和 61803058 基金，部分由国家自然科学基金 51775076 和 61801061 基金资助。

链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9721010

翻译：幸运的石头|来源：IEEE Access 2022 | 动态场景中基于改进的DeepLabv3+的语义SLAM

期刊：IEEE Access 2022

摘要

同步定位与建图（SLAM）在人工智能领域发挥着不可替代的作用。传统的视觉 SLAM 算法在静态环境下是稳定的，但在动态场景下鲁棒性和准确性较低，影响了其定位精度。为了解决这个问题，提出了一种结合了ORB-SLAM3、语义分割线程和几何线程的语义SLAM系统，即DeepLabv3+_SLAM。改进的 DeepLabv3+ 语义分割网络结合上下文信息来分割潜在的先验动态对象。然后，几何线程使用多视图几何方法检测动态对象的运动状态信息。最后，提出一种新的蚁群策略，通过最优路径找到所有动态特征点的群，避免遍历所有特征点，以减少动态目标检测时间，提高系统的实时性。通过对公共数据集进行实验，结果表明，与同类算法相比，本文提出的方法有效提高了系统在高动态环境下的定位精度，提高了系统的实时性。

关键词：DeepLabv3+_SLAM，语义，高动态环境，新蚁群策略。

一、引言

随着机器人技术和计算机科学的快速发展，自主移动机器人广泛应用于工业和农业等各个领域。作为机器人运动领域最先进的技术之一，SLAM 利用来自机器人的传感器数据进行自主定位和地图构建。从机器人自主定位和地图构建的相互依赖来看，只有准确的自主定位才能构建正确的地图。正确的地图可以帮助机器人准确地确定其在地图中的位置。

目前，大多数视觉SLAM框架都是在静态环境的假设下运行的，如ORB-SLAM [1]、ORB-SLAM2 [2]、ORB-SLAM3 [3]、LSD-SLAM [4]、RGB-D SLAM [5]。在这些框架中，ORB-SLAM3被认为是目前在静态场景中使用的高级方法。ORB-SLAM3 是一个基于 ORB-SLAM2 和 ORB-SLAM-VI 的系统，可以在 ORB-SLAM-VI 的基础上稳健运行。是一个完整的、高精度的广义系统。这些算法在静态环境或具有少量动态对象的环境中都可以取得令人满意的结果。然而，当机器人在具有大量动态对象（例如人、车辆）的环境中运行时，视觉 SLAM 算法的性能会显着下降。这是由于环境中动态物体的视觉特征，影响了机器人的位置估计，大大降低了系统的定位精度。近年来，随着深度学习技术的发展，越来越多优秀的图像算法被应用到视觉SLAM中，为提高系统定位精度提供了方法和思路。

在本文中，我们提出了一种多线程并行语义 SLAM 系统来解决面对动态对象时的问题。该系统主要基于 ORB-SLAM3 算法框架，并在原始框架中引入语义分割和多视图几何方法。在语义分割线程中，ResNest [6]使用精度更高的分类网络替代原来的在DeepLabv3+[8]分割网络中的ResNet[7]，有助于更准确地分割对象边界。dilation rate较小的空洞卷积[9]在提取低分辨率特征图信息时更有效，因此在DeepLabv3+的Atrous Spatial Pyramid Pooling (ASPP)模块中增加了一层空洞卷积，dilation rate大小被调整。同时，为了减少网络参数的数量并提高网络的效率和训练速度，我们将所有空洞卷积替换为深度可分离卷积[10]并进行二维分解。在几何线程中，采用多视几何方法确定物体的运动状态，提出了一种新的蚁群搜索策略，避免了多视几何方法必须使用图像特征点的分布特征分析所有特征点。这提高了系统的鲁棒性和实时性。

本文的其余部分安排如下。第二节简要介绍了各种视觉 SLAM 在动态场景中的一些成就和不足。第三节阐明了我们的 SLAM 系统的架构。在第四节中，我们对 TUM RGB-D 数据集进行了实验，以验证 DeepLabv3+_SLAM 系统的有效性和准确性。最后，在第五节，我们总结并讨论了这篇论文。

二、相关工作

获取对象语义信息的主要方法包括目标检测和语义分割。目标检测是物体边界框的确定，语义分割是物体的准确分类。目标检测和语义分割都可用于识别场景中的动态对象。相比之下，语义分割在识别对象的结果方面更好，因为可以准确地分割对象的轮廓。但是，边界框可能包含不属于对象的像素。在使用语义分割对异常对象进行处理后，建立了一个没有任何动态对象的静态背景模型，从而提高了视觉SLAM系统在动态环境中的准确性和鲁棒性。

随着神经网络的兴起，语义分割逐渐被引入到 SLAM 语义系统中。例如，于等人[11] 提出了一种 DS-SLAM 方案，将视觉 SLAM 算法与 SegNet [12] 网络相结合，利用动态场景中的语义信息和运动特征点来过滤动态部分。该方法提高了姿态估计的准确性，但该方案中语义分割网络能够识别的对象类型有限，限制了其应用范围。钟等人 [13]将ORB-SLAM2和SSD [14]组合成一个新的耦合框架Detect-SLAM，并提出了一种实时传播关键点运动概率的方法，以克服目标检测线程的延迟。语义信息用于消除 SLAM 中移动物体造成的负面影响。该框架旨在提高目标检测效率和对视点变换问题的敏感性，系统的实时性能有待进一步优化。肖等人[15]提出Dynamic-SLAM，构建基于卷积神经网络的SSD目标检测器，并提出基于相邻帧等速的漏检补偿算法，解决SSD目标检测网络召回率低的问题，大大提高检测的召回。还提出了一种选择性跟踪算法来简单地消除动态对象，从而提高了系统的鲁棒性和准确性。Cui 和 Ma [16] 提出了一种语义光流方法，它结合了运动前的语义信息，辅助计算极线几何，过滤掉真正的动态特征，只保留剩余的静态特征进入跟踪优化模块，以实现在动态环境中准确估计相机位姿。张等人[17] 提出了 VDO-SLAM，一种基于动态特征的 SLAM 系统，它利用场景中基于图像的语义信息，无需事先了解物体姿态或几何形状，即可同时实现动态物体的定位、地图构建和跟踪。但是，也存在由于算法或优化功能的问题而出现较大误差的情况，实时性能需要改进。陈等人[18] 提出了 DM-SLAM，它将实例分割网络 Mask-R CNN 与光流和对极几何相结合，以约束场景中的异常值。提出了两种不同的策略来获得动态点检测段中潜在动态对象的分割结果。一种方法是将具有深度信息的特征点重投影到当前帧，并使用重投影偏移向量来区分动态点。另一种方法使用极线几何约束。龙等人[19]提出PSPNet-SLAM，通过金字塔场景分辨率SLAM将金字塔结构的语义线程和几何线程整合到ORB-SLAM2中，利用语义线程结合上下文信息对动态对象进行分割。最佳误差补偿单应矩阵旨在提高动态点检测的精度，但网络处理图像帧的能力影响系统的实时性，去除动态对象的能力有待提高。贝斯科斯等人[20] 提出了 DynaSLAM，它以不同的方式处理单目和 RGB-D 相机。在单目情况下，Mask R-CNN [21] 用于检测运动物体，而在 RGB-D 模式下，Mask R-CNN 网络和多视图几何模型相结合来检测运动物体。该方法可以检测环境中的多个运动物体，并修复被动态物体遮挡的背景。然而，该系统难以实时运行，因为 Mask R-CNN 网络在图像处理方面既费时又费资源。艾等人[22] 提出了 DDL-SLAM 系统，该系统提高了分割和背景恢复能力。通过结合语义分割和多视图几何算法过滤掉场景中的动态对象，静态场景图可以修复被移动对象遮挡的背景进行恢复，从而提高高动态环境下的定位精度。然而，实时性能仍然不足。

与传统的ORB-SLAM3相比，虽然上面提出的各种解决方案在检测物体的语义信息时性能如何得好，但在语义信息中物体之间的相关性、定位精度和系统的实时性等方面还有改进和研究的空间。

图 1. DeepLabv3+_SLAM 的结构

三、系统描述

本文提出的系统在ORB-SLAM3的基础上进行了改进。整体结构框图如图1所示。在改进的框架中，增加了语义线程和几何线程。首先，RGB-D 相机收集图像数据。然后，将数据传入跟踪线程进行预处理，DeepLabv3+模型将所有先验动态内容按像素细分，同时使用几何线程模块区分图像中的动态和静态特征点。其次，将DeepLabv3+模型的分割结果与几何模块判断的运动状态信息结合起来，用于提取动态物体的轮廓区域。最后，去除动态对象区域的特征点和空间点，将仅具有静态特征的图像帧用于后续跟踪和地图构建，从而提高视觉 SLAM 系统在高度动态环境中的准确性和鲁棒性。

A. 语义分割 DeepLabv3+

在传统语义系统中，卷积神经网络如全卷积神经网络 [23] (FCN)、基于编解码器架构的U-net [24]、SegNet等算法用于视觉SLAM系统。

图 2. DeepLabV3+ 网络结构

然而，这些算法中的每一个都存在或多或少的问题，例如无法从上下文中推断信息，无法处理场景与全局信息之间的关系，或者无法有效处理类别之间的关系导致标签关联失败，导致预测不连续。DeepLabv3+ 是 Google 提出的一系列 DeepLab [25]-[27] 模型中最好的分割模型，但该模型在处理速度和模型容量方面并不优越。DeepLabv3+的整体结构如图2所示。该模型引入了基于Dilated FCN的Encoder-Decoder思想。Encoder 的主要作用是逐渐降低特征图的分辨率并提供高级语义信息。Encoder的主体是DCNN，带有dilation convolution，使用的分类网络可以是ResNet、Xception或者其他网络，其次是ASPP模块，通过在不同分辨率下进行池化操作，引入多尺度信息来捕捉丰富的上下文信息。

假设表示为卷积核大小为k，膨胀率为r的卷积操作，其输出可表示为：

Decoder模块的主要作用是进一步融合低层特征和高层特征，提高分割边界的准确率，恢复空间信息。Decoder对Encoder输出的特征图进行4次双线性上采样后得到分辨率为4的特征图，然后将该特征图与主干中1×1卷积降维得到的特征图拼接融合网络。最后，模块通过 3×3 卷积上采样 4 次，得到最终的预测语义分割图。

作为 DeepLabv3+ 的骨干网络，ResNet 表现良好。ResNet主要使用基于bottleneck设计的residual结构，一般在网络层数大于30的时候使用，这样网络参数可以显著减少并且可以训练更深的网络。ResNet网络在很大程度上缓解了网络层数加深导致的网络退化问题，使网络能够学习到更深层次的图像特征。但其感受野大小固定且单一，不能用于融合多尺度特征，也没有利用跨通道特征之间的交互作用。ResNest 的提议弥补了 ResNet 的不足。

ResNest 是对 ResNet 的修改，将特征图的分割注意力组合在单个网络中，并将通道维度的注意力机制扩展到特征图组的表示，形成模块化，如图 3 所示。与 ResNet 或其变体相比，ResNest 不需要额外的计算，结果与 ResNet 及其变体相比有了显着的改进。因此，本文采用ResNest作为DeepLabv3+的主干网络，使SLAM系统中的语义线程具有更好的图像分割性能。

图 3. ResNest 的分割注意力块。

B. ASPP MODULE

在编码器部分中，原始 ASPP 模块中的卷积层为 1×1 空洞卷积，dilation rate为 6、12 和 18 的 3×3 空洞卷积，以及全局平均池化层。随着主干网络不断提取图像特征，特征图的分辨率会不断降低，而膨胀率较大的膨胀卷积不利于提取分辨率较低的特征图信息。为了解决这个问题，在原来的dilation convolution 上增加了一层新的dilation convolution，将dilation rate 调整为4、8、12、16，以提高对低分辨率特征图信息的提取，其输出可以表示为：

ASPP 将不同dilation rate的空洞卷积并行堆叠，以获得多尺度信息增益。膨胀率的一维数学表达式为

其中 x[i] 表示输入信号，y[i] 表示输出信号，r 是采样的步长，w[s] 表示卷积核在位置 s 处作为参数的大小，S 表示卷积核的大小。

将深度可分离卷积与标准卷积进行比较，我们发现深度可分离卷积可以在很大程度上减少训练过程中过多的参数数量。对于相同的输入，标准卷积中的参数数量大约是深度可分离卷积中参数数量的三倍。因此，我们将 ASPP 中的所有空洞卷积替换为深度可分离卷积，以提高系统的训练性能和效率，同时对分割精度的影响更小。

ASPP 的主要功能是从特征图中提取多尺度信息。然而，3×3卷积会学习冗余信息，导致系统参数数量增加，影响系统速度。在本文中，ASPP 中的所有 3×3 卷积在不改变dilation rate的情况下使用 2 维分解转化为 3×1 和 1×3 卷积。这与原始结构相比减少了约1/3的参数数量，有效地减少了该模块的计算量，具有更快的训练速度和提取重要特征信息的能力。

改进后的 ASPP 模块如图 4 所示。当骨干网络生成的特征图被送到 ASPP 进行处理时，特征图首先进行 1×1 的卷积，该卷积的dilation rate为 4、8、 12和16，进行全局平均池化操作。然后，将得到的六个特征图在通道维度进行拼接融合。最后经过1×1卷积和降维操作得到包含高级语义特征的特征图。

图 4. 修改后的 ASPP 框架。

C. 基于多视图几何的动态对象检测

语义分割网络只能先验地检测出具有高概率的动态对象，但在实际场景中，SLAM 系统经常会受到静态对象的干扰。书籍和椅子是静态对象的示例。然而，当人带着书或椅子移动时，应将其视为动态物体，而不是将其视为静态物体参与定位和建图。这对SLAM系统产生了很大的影响。因此，我们使用基于多视图几何的动态对象分割方法进行处理。如图5所示，将地图点云投影到当前帧，根据视点差异和深度值变化的大小，区分对象是动态对象还是静态对象。通过计算当前帧(cf)中每个关键点的视角值vcf和历史帧(hf)的视角值vhf，如果视角值的差大于设定阈值，确定关键点为动态点。同时，我们还需要计算当前帧中关键点的深度值dcf和当前帧中历史帧的投影深度值dproj。如果深度值之差为，则确定关键点为静态点。如果大于设置的阈值 dthresh，则认为关键点是动态的。

图 5. 多视图几何

D. 蚁群策略

蚁群算法[28]是一种模拟优化算法，模拟蚂蚁的觅食行为。蚂蚁在运动过程中释放与路径长度相关的信息素。路径长度与信息素浓度成反比，最优路径的信息素浓度最大。蚂蚁根据信息素浓度选择它们的路径。蚁群算法有两个主要过程：状态转移和信息素更新。假设蚂蚁 m 从节点 i 移动到节点 j 的概率为，其状态转移规则由下式给出：

其中 τ(i,j)表示从 i 到 j 路径上的信息素浓度，η(i,j) 是相应的启发式信息函数，α 是信息启发式因子，β 是预期启发式因子，allowedm 是未访问的节点蚂蚁。α值越大，蚂蚁在移动前越有可能选择路径，搜索路径的随机性被削弱。α值越小，搜索范围越小，容易陷入局部最优。β值越大，蚁群越容易选择局部最短路径，算法收敛速度加快。当蚂蚁完成一次路径转移时，它会进行一次信息素更新。更新规则如下：

其中 ρ 为信息挥发因子，ρ ∈ [0,1)，1−ρ 表示残差因子，为 t 时刻从 i 到 j 的信息素增加量。当ρ太小时，每条路径上残留的信息素过多，导致不断搜索无效路径，影响算法效率。当ρ太大时，虽然可以将无效路径排除在搜索范围之外，但也可能排除有效路径，影响对最优解的搜索。

E. 新蚁群策略

当多视图几何方法将历史帧的图像通过投影变换到当前帧时，会得到大量的投影特征点。通过遍历所有投影的特征点来确定一个点是静态点还是动态点。但是，特征提取中的特征点数以千计，如果每个特征都必须确定是静态的还是动态的，那么SLAM的实时性就会受到限制。在本文中，基于蚁群算法的策略，我们提出了一种新的蚁群策略，通过最优路径找到所有动态特征点的组，从而避免遍历所有特征点，减少时间-消耗特征点提取并提高 SLAM 的实时性。

在蚁群算法策略中，在从起点到终点的整个过程中，蚁群避开遇到的障碍物，寻找到目的地的最优路径。基于该策略，本文设置了一条从起点到终点的搜索路径，并在路径上依次搜索特征点。由于图像中的动态点或静态点是成组分布的，而不是乱七八糟地散布在整个图像中，当找到一个动态特征点时，就会转移到该特征点所在的组，直到所有的特征点检测到整个组或搜索超出组的范围。然后将搜索下一个动态特征点组。当检测到静态特征点时，不处理该点及其组，继续按照路径搜索。

根据图像中特征点的分布，本文设计了一条从出发点S到目的地T的路径l，如图6所示。搜索策略为：蚁群连续移动从特征点mi =0 到下一个点 mi(i = 1,2,...,n) 的路径上，直到到达目的地目标 T。在移动路径上，每个特征点 m 都会以自己为原点，在半径 R 内搜索特征点。如果没有找到动态点，则继续在路径 l 上向前搜索。当找到动态点时，以带宽向外扩展。如果找到下一个新的动态点，继续向外扩展，直到在扩展区域内找不到动态点，然后返回路径l，依次继续搜索下一个与动态特征匹配的特征点mi，直到路径l全部完成。

四、实验与分析

A. 实验环境和数据集

在本节中，为了比较我们的语义 SLAM 系统和其他优秀 SLAM 系统在动态环境中的性能，我们在数据集 TUM RGB-D 上进行了实验。此外，将所提出的系统与原始 ORB-SLAM3 进行比较，以量化其在动态场景中的改进。所有实验均在配备 Intel i7 CPU、RTX2080Ti GPU 和 16 GB 内存的计算机上进行。

TUM 数据集是用于评估相机定位精度的优秀数据集，并为序列提供准确的真值。该数据集包含由 RGB-D 相机以 30 fps 记录的 7 个序列，分辨率为 640 × 480。在本节中，我们使用来自 TUM 数据集的 5 个序列来评估性能并证明 DeepLabv3+_SLAM 在动态环境，即 fr3_s_static、fr3_w_static、fr3_w_rpy、fr3_w_xyz、fr3_w_halfsphere。除了 fr3_s_static 是静态序列外，其他序列都是动态序列。序列名称中的“s”表示“坐”，“w”表示“行走”。下划线后面的单词表示相机的状态，例如“xyz”表示相机沿x-y-z轴移动。

为了定量评估我们算法的优势，系统的整体性能使用表示轨迹全局一致性的绝对轨迹误差 (ATE) 和测量平移和旋转漂移的相对姿态误差 (RPE) 进行评估。均方根误差（RMSE）比均值和中值更能反映系统的准确性和鲁棒性，标准差（S.D.）能反映系统的稳定性。因此，在本文中，RMSE 值和 S.D. ATE和RPE的值是通过分别处理每个序列来判断位置精度和系统稳定性得到的。

B. 实验结果

ORB-SLAM3、DynaSLAM 和 DeepLabv3+_SLAM 算法的 ATE 和 RPE 是通过对 5 个序列进行实验获得的。结果示于表1-3。

如表所示，DeepLabv3+_SLAM 和 DynaSLAM 相比 ORB-SLAM3 可以显着降低每个序列的 ATE 和 RPE。在高动态序列中，与DynaSLAM相比，本文方法在ATE和PRE上有显着提升，在ATE方面，RMSE和S.D的提升值。分别达到 25.18% 和 31.88%，主要是因为所提出的语义分割网络不仅具有更好的性能，而且还考虑了与几何线程的信息相关性，使得 DeepLabv3+_SLAM 系统能够显着提高其在高动态下的定位精度和鲁棒性环境。在低动态序列fr3_s_static中，与ORB-SLAM3相比，本文方法的改进并不明显。这主要是因为ORB-SLAM3本身是针对低动态环境设计的，能够很好的处理低动态场景并取得不错的效果，因此提升空间有限。

图7-9展示了ORB-SLAM3、DynaSLAM和DeepLabv3+_SLAM在高动态序列fr3_w_xyz中的ATE和RPE。黑线表示相机的真实轨迹，蓝线表示通过 SLAM 算法估计的相机轨迹。在高动态环境下，ORB-SLAM3系统估计的运动轨迹与真实轨迹存在较大差距，甚至在某些区域产生错误轨迹。相反，DynaSLAM 和 DeepLabv3+_SLAM 系统在估计的运动轨迹和真实轨迹之间有很高的重叠，因为场景中的动态物体被消除了，DeepLabv3+_SLAM 估计的运动轨迹更接近真实轨迹比 DynaSLAM 估计的轨迹。这表明本文中的方法更能处理高动态场景。

表 1. 绝对轨迹误差结果（ATE[m]）

表 2. 平移漂移结果（RPE[m]）

表 3. 旋转漂移结果（RPE[deg/s]）

图 7. ORB-SLAM3 在 fr3_w 中的 ATE 和 RPE

图 8. DynaSLAM 在 fr3_w_xyz 中的 ATE 和 RPE。

本文的目的是去除动态目标上的特征点，只保留剩余的静态特征点。因此，为了验证动态特征点去除的效果，本文对高动态序列fr3_w_xyz进行了实验。图 10 从上到下分别显示了原始图像、语义分割图像和未处理动态特征点的图像，其中绿点表示 ORB 特征点的位置。从图中可以看出，落在动态物体上的特征点已经被本文的方法检测和去除，而落在静态物体上的其他特征点被保留。人体边缘的一些区域也有一些特征点没有很好的剔除，这与语义分割的准确性有关。

在实际应用中，实时性能是评估 SLAM 系统的重要指标。因此，为了评估实时性能，我们让 DeepLabv3+_SLAM 和 DynaSLAM 在相同的硬件条件下运行 5 个序列，并记录几何线程消耗的时间，结果如表 4 所示。在运行时间方面，由于本文在几何线程中引入了一种新的蚁群策略，大大减少了几何方法判断对象状态信息所消耗的时间，本文方法与DynaSLAM相比具有更好的实时性，从而提高了SLAM系统的整体实时性。

五、结论

为了消除动态物体对系统定位精度的影响，我们提出了DeepLabv3+_SLAM系统。该系统在原始 ORB-SLAM3 的基础上引入了语义和几何线程。首先，通过语义线程获得先验动态信息。然后，使用多视图几何方法在几何线程中检测场景中的动态特征点，同时提出一种新的蚁群策略，利用特征点的分布特征选择性地检测动态特征点，以便提高几何线程的实时性能。最后，为了验证本文系统的整体性能，我们在 TUM RGB-D 数据集上进行了实验和分析，结果表明本文系统的定位精度和实时性都有所提高。与现有的高级 SLAM 框架相比，在高度动态的环境中。

尽管在定位精度和实时性方面取得了进步，但仍然存在许多不足。一方面，系统的实时性仍有待提高，几何线程图像帧处理的速度有待提高。另一方面，我们仍然需要不断优化语义分割网络来提高网络分割的准确性，或者选择其他优秀的轻量级网络来帮助系统更有效地消除动态对象带来的影响。

图 9. 在 fr3_w_xyz 中 DeepLabV3+_SLAM 的 ATE 和 RPE。

图 10.来自 TUM RGB 数据集的高度动态序列 fr3_w_xyz 的实验结果。

表 4. 时间评估

参考文献

[1] R. Mur-Artal, J. M. M. Montiel, and J. D. Tardós, ‘‘ORB-SLAM: A versatile and accurate monocular SLAM system,’’ IEEE Trans.Robot., vol.31, no.5, pp. 1147–1163, Oct. 2015.

[2] R. Mur-Artal and J. D. Tardós, ''ORB-SLAM2: An open-source slam system for monocular, stereo, and RGB-D cameras,''IEEETrans.Robot., vol.33, no.5, pp. 1255–1262, Oct. 2017.

[3] C. Campos, R. Elvira, J. J. Gómez Rodríguez, J. M. M. Montiel, and J. D. Tardós, ''ORB-SLAM3: An accurate open-source library for visual, visual-inertial and multi-map SLAM,'' 2020,arXiv:2007.11898.

[4] J. Engel, T. Schöps, and D. Cremers, ‘‘LSD-SLAM: Large-scale direct monocular SLAM,’’ in Computer Vision–(ECCV).Cham, Switzerland: Springer, Sep. 2014, pp. 834–849.

[5] G. Hu, S. Huang, L. Zhao, A. Alempijevic, and G. Dissanayake, ‘‘A robust RGB-D SLAM algorithm,’’ in Proc.IEEE/RSJ Int.Conf.Intell.Robots Syst., Oct. 2012, pp. 1714–1719.

[6] H. Zhang, C. Wu, Z. Zhang, Y. Zhu, H. Lin, Z. Zhang, Y. Sun, T. He, J. Mueller, R. Manmatha, M. Li, and A.Smola, ''ResNeSt: Split-attention networks,'' 2020, arXiv:2004.08955.

[7] K. He, X. Zhang, S. Ren, and J. Sun, ‘‘Deep residual learning for image recognition,’’ in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR), Jun. 2016, pp. 770–778.

[8] L.-C.Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, ‘‘Encoder- decoder with atrous separable convolution for semantic image segmenta- tion,’’ 2018, arXiv:1802.02611.

[9] F. Yu and V. Koltun, ‘‘Multi-scale context aggregation by dilated convolu- tions,’’ 2015, arXiv:1511.07122.

[10] F. Chollet, ‘‘Xception: Deep learning with depthwise separable convo- lutions,’’ in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR), Jul. 2017, pp. 1251–1258.

[11] C. Yu, Z. Liu, X.-J.Liu, F. Xie, Y. Yang, Q. Wei, and Q. Fei, ‘‘DS-SLAM: A semantic visual SLAM towards dynamic environments,’’ in Proc.IEEE/RSJ Int.Conf.Intell.Robots Syst.(IROS), Oct. 2018, pp. 1168–1174.

[12] V. Badrinarayanan, A. Handa, and R. Cipolla, ‘‘SegNet: A deep con- volutional encoder-decoder architecture for robust semantic pixel-wise labelling,’’ 2015, arXiv:1505.07293.

[13] F. Zhong, S. Wang, Z. Zhang, C. Chen, and Y. Wang, ‘‘Detect-SLAM: Making object detection and SLAM mutually beneficial,’’ in Proc.IEEE Winter Conf.Appl.Comput.Vis.(WACV), Mar. 2018, pp. 1001–1010.

[14] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y.Fu, and A. C. Berg, ‘‘SSD: Single shot multibox detector,’’ 2015, arXiv:1512.02325.

[15] L. Xiao, J. Wang, X. Qiu, Z. Rong, and X. Zou, ‘‘Dynamic-SLAM: Seman- tic monocular visual localization and mapping based on deep learning in dynamic environment,’’ Robot.Auton.Syst., vol.117, pp. 1–16, Jul. 2019.

[16] L. Cui and C. Ma, ‘‘SOF-SLAM: A semantic visual SLAM for dynamic environments,’’ IEEE Access, vol.7, pp. 166528–166539

[17] J. Zhang, M. Henein, R. Mahony, and V. Ila, ‘‘VDO-SLAM: A visual dynamic object-aware SLAM system,’’2020,arXiv:2005.11052.

[18] J. Cheng, Z. Wang, H. Zhou, L. Li, and J. Yao, ‘‘DM-SLAM: A feature- based SLAM system for rigid dynamic scenes,’’ ISPRS Int.J. Geo-Inf., vol.9, no.4, pp. 1–18, 2020.

[19] X. Long, W. Zhang, and B. Zhao, ''PSPNet-SLAM: A semantic SLAM detect dynamic object by pyramid scene parsing network,'' IEEE Access, vol.8, pp. 214685–214695, 2020.

[20] B. Bescos, J. M. Fácil, J. Civera, and J. Neira, ‘‘DynaSLAM: Tracking, mapping, and inpainting in dynamic scenes,’’ IEEE Robot.Automat.Lett., vol.3, no.4, pp. 4076–4083, Oct. 2018.

[21] K. He, G. Gkioxari, P. Dollár, and R. Girshick, ‘‘Mask R-CNN,’’ in Proc.IEEE Conf.Comput.Vis.Pattern Recognit., Oct. 2017, pp. 2961–2969.

[22] Y. Ai, T. Rui, M. Lu, L. Fu, S. Liu, and S. Wang, ''DDL-SLAM: A robust RGB-D SLAM in dynamic environments combined with deep learning,''IEEE Access, vol.8, pp. 162335–162342, 2020.

[23] J. Long, E. Shelhamer, and T. Darrell, ‘‘Fully convolutional networks for semantic segmentation,’’ in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR), Jun. 2015, pp. 3431–3440.

[24] O. Ronneberger, P. Fischer, and T. Brox, ‘‘U-Net: Convolutional networks for biomedical image segmentation,’’ in Proc.Int.Conf.Med.Image Comput.Comput.-Assist.Intervent., Nov. 2015, pp. 234–241.

[25] L.-C.Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, ‘‘Semantic image segmentation with deep convolutional nets and fully connected CRFs,’’ 2014, arXiv:1412.7062.

[26] L.-C.Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, ‘‘DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs,’’ IEEE Trans.Pattern Anal.Mach.Intell., vol.40, no.4, pp. 834–848, Apr. 2018.

[27] L.-C.Chen, G. Papandreou, F. Schroff, and H. Adam, ‘‘Rethinking atrous convolution for semantic image segmentation,’’ 2017, arXiv:1706.05587.

[28] X. Dai, S. Long, Z. Zhang, and D. Gong, ‘‘Mobile robot path planning based on ant colony algorithm with A* heuristic method,’’ Frontiers Neu- rorobot., vol.13, p.15, Apr.

作者介绍

胡章芳，1994年获得四川电子科技大学硕士学位，浙江大学访问学者。现任重庆邮电大学光电学院教授。主要研究方向为光电传感和光电信息处理。

姜兆获得学士学位。2018年毕业于四川农业大学（SICAU），获硕士学位。目前在重庆邮电大学（CQUPT）光电学院攻读硕士学位。他目前的研究兴趣包括移动机器人和语义SLAM。

YUAN LUO 获得硕士学位。1996 年获得重庆邮电大学 (CQUPT) 博士学位，获得博士学位。2003年毕业于重庆大学，获博士学位。2006年在加拿大蒙特利尔大学做访问学者。现任重庆大学技术学院教授。她的研究兴趣包括计算机视觉、光电传感、图像处理和移动机器人。

欧俊雄获得学士学位。2019年获得四川理工大学（SUSE）博士学位。目前在重庆邮电大学光电学院攻读硕士学位。他目前的研究兴趣包括计算机视觉、深度学习和 V-SLAM。21168 第 10 卷，2022 年

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术