导航菜单

AAAI 2020 | 华科Oral提出TANet:提升点云3D目标检测的稳健性

KITTI数据集上的实验结果表明,在更困难的噪声环境下(即在每个对象周围增加额外的随机噪声点),TANet的性能远远优于当前的最优方法。此外,在对KITTI参考数据集执行3D目标检测任务后,发现TANet仅使用点云作为输入,即在“行人”类别检测中实现了SOTA结果。它的运行速度大约是每秒29帧。

3D目标检测有多难?

点云3D目标检测有大量真实的应用场景,尤其是自动驾驶和增强现实。一方面,点云提供可靠的几何结构信息和精确的深度,因此如何有效地利用这些信息是一个重要的问题。另一方面,点云通常是无序的、稀疏的和不均匀分布的,这对精确的目标检测是一个很大的挑战。

近年来,三维目标检测界提出了许多基于点云的方法。PointRCNN直接在原始点云上运行,用PointNet提取特征,然后用两级检测网络估计最终结果。体素网(VoxelNet)、第二和点柱(SECOND)将点云转换成规则体素网格,然后应用一系列卷积运算进行3D对象检测。

虽然现有方法已经达到了很好的检测精度,但是这些方法在难度较高的情况下仍然不能达到令人满意的性能,特别是对于难以检测的物体,例如行人。

如下图1所示,点柱错过了一个行人,并预测一个物体为假阳性。研究人员从两个方面揭示了预测误差的根本原因:1)行人体积小于汽车体积,激光雷达扫描的有效点较少。2)行人经常出现在大量场景中,因此各种背景物体(如树、灌木、电线杆等)也不例外。)可能非常靠近行人,这给准确识别行人带来很大困难。因此,在复杂点云中进行目标检测仍然是一项非常困难的任务。

图1:行人检测结果。第一行显示相应的2D图像,第二行分别显示点柱和TANet的3D检测结果。红色箭头表示点柱遗漏和错误的检测对象。

本研究中提出的新方法TANet

本文提出了一种新的三重注意网络(TANet)架构,如图2所示。它主要包括三重注意模块和粗到精表达模块。这种方法的直接驱动力是,一组包含有用信息的点可以为严重噪声环境下的后续回归提供足够的线索。为了捕捉包含有用信息的线索,TA模块增强了识别点,抑制了不稳定点。具体来说,助教模块分别学习一些注意力和渠道注意力,然后通过乘法元素将它们结合起来。此外,研究人员还考虑体素注意,即体素的全局注意。

图Tanet的整体流程图。首先,点云被均匀地分成包含一组体素的体素网格。然后,堆叠的TA模块被用于分别处理每个体素,以获得更有区别的表示。之后,通过最大汇集法聚集每个体素中的点,以提取每个体素的紧凑特征表示。研究人员根据体素在网格中的原始空间位置排列体素特征,从而获得体素网格c′×h×w的特征表示。

在嘈杂的环境中,仅使用单个回归模块(例如一阶RPN)来定位3D边界框的效果并不令人满意。为了解决这个问题,本研究提出了一种端到端的可训练粗到精表达机制。其中,大致步骤如下(周和图泽尔,2018年;Lang等人,2019年)。然后,利用新的金字塔抽样聚合融合方法获得跨层特征图。基于融合的跨层特征映射实现细化,从而获得更精细的估计结果。

TA模块和CFR机制都是3D探测器鲁棒性的关键,3D探测器的鲁棒性对自动驾驶的真实场景非常重要。因为不是KITTI数据集中的所有数据都受到噪声的干扰,研究人员在实验评估过程中通过在每个物体周围添加随机噪声点来模拟噪声环境。大量实验证明TANet方法已经实现

1.提出一种新的TA模块,将通道注意、点注意和体素注意相结合,并进行叠加操作,获得多层次的特征注意,从而获得物体的判别表示;

2。提出了一种新的由粗到细的回归机制,该机制基于粗回归结果对包含有用信息的融合跨层特征图进行细回归;

3。该方法在较高难度的噪声环境下取得了良好的实验结果。KITTI基准数据集上的定量比较结果表明,TANet方法获得了当前的最优性能,推理速度非常快。

使用TANet执行3D目标检测

如图2所示,TANet由两个主要部分组成:堆叠的TA模块和CFR模块。

堆叠式助教模块

图3:助教模块架构图。

CFR模块

研究人员使用粗回归模块和细回归模块进行三维边界框估计。

图4:紧凑型荧光灯架构图。金字塔采样表示一系列下采样和上采样操作,通过汇集和转置卷积来实现。

experience

Evaluation of Model Performance on KITTI Dataset

Results on Noise Point Cloud Data

Table 1显示了TANet的定量结果和当前在嘈杂环境中的最佳方法。虽然汽车类点神经网络的3D映射比TANet高0.43%,但TANet方法在噪声环境中表现出较强的鲁棒性。添加100个噪声点后,TANet获得79.34%的3D mAP,比点RCNN高1.7%。对于行人类,TANet的性能分别比点柱和点神经网络高5.8%和11.9%。由此可见,TANet方法对噪声具有很强的鲁棒性,特别是对于难以检测的样本,如行人、硬自行车手和硬汽车。

表1:在KITTI验证集中,TANet、PointRCNN和PointPillars比较了汽车、行人和骑自行车者类别中3D目标的检测性能。3D mAP代表每个类别的平均准确度。

原始点云数据的结果

下表2显示了KITTI官方测试数据集上不同方法的实验结果。TANet的三类三维地图分别比当前的最优方法点柱和点神经网络高62%、1.20%和1.22%。特别是对于难以检测的物体(如行人),TANet的性能分别比点柱(PointPillars)和点神经网络(PointRCNN)高2.30%和4.83%。

表2:在KITTI测试数据集上用TANet的新方法和以前的方法比较汽车、行人和骑自行车者的3D目标检测性能。3D地图代表三个类别的3D对象检测的平均准确率。

下面的图5显示了从模型中学习到的特性图和模型预测置信度得分特性的可视化图。

图5:模型学习特征图和模型预测置信度得分的可视化说明。

控制变量实验

表3:控制变量实验对通道注意、点注意和体素注意及其不同组合的影响。所有实验都是在不使用射频模块的情况下进行的。

表4:变压吸附模块效果的控制变量实验。

这篇文章是为机器的核心而发表的。请联系此公共号码以获得授权。

贡献还是寻求报道:content

jiqizhixin.com

——