Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

释放双眼，带上耳机，听听看~！

This article discusses the advancements in 3D detection and tracking using Sparse4D v3 framework, including the introduction of auxiliary training tasks, decoupled attention mechanism, and improvements in model performance. It is categorized under AI资讯.

原标题：Sparse4D v3 Advancing End-to-End 3D Detection and Tracking

论文链接：https://arxiv.org/pdf/2311.11722.pdf

代码链接：https://github.com/linxuewu/Sparse4D

作者单位：地平线

Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

论文思路：

在自动驾驶感知系统中，3D检测和跟踪是两项基本任务。本文基于 Sparse4D 框架更深入地研究了该领域。本文引入了两个辅助训练任务（时序实例去噪-Temporal Instance Denoising和质量估计-Quality Estimation），并提出解耦注意力(decoupled attention)来进行结构改进，从而显着提高检测性能。此外，本文使用一种简单的方法将检测器扩展到跟踪器，该方法在推理过程中分配实例 ID，进一步突出了 query-based 算法的优势。在 nuScenes 基准上进行的大量实验验证了所提出的改进的有效性。以ResNet50为骨干，mAP、NDS和AMOTA分别提高了3.0%、2.2%和7.6%，分别达到46.9%、56.1%和49.0%。本文最好的模型在 nuScenes 测试集上实现了 71.9% NDS 和 67.7% AMOTA。

主要贡献：

本文提出了 Sparse4D-v3，这是一个强大的 3D 感知框架，具有三种有效的策略：时序实例去噪、质量估计和解耦注意力。

本文将 Sparse4D 扩展为端到端跟踪模型。

本文展示了 nuScenes 改进的有效性，在检测和跟踪任务中实现了最先进的性能。

网络设计：

首先，本文观察到与 dense-based 算法相比，sparse-based 算法在收敛方面遇到了更大的挑战，最终影响了它们的最终性能。这个问题已经在 2D 检测领域得到了彻底的研究[17,48,53]，并且主要归因于一对一正样本匹配的使用。这种匹配方式在训练初期不稳定，而且与一对多匹配相比，正样本数量有限，从而降低了解码器训练的效率。此外，Sparse4D 使用稀疏特征采样而不是全局交叉注意力，由于正样本稀缺，这进一步阻碍了编码器收敛。在 Sparse4Dv2 [27] 中，引入了密集深度监督(dense depth supervision)来部分缓解图像编码器面临的这些收敛问题。本文主要旨在通过关注解码器训练的稳定性来增强模型性能。本文将去噪任务作为辅助监督，并将去噪技术(denoising techniques)从 2D 单帧检测扩展到 3D 时序检测。不仅保证了稳定的正样本匹配，而且显着增加了正样本的数量。此外，本文引入了质量评估(quality estimation)任务作为辅助监督。这使得输出的置信度分数更加合理，提高了检测结果排名的准确性，从而获得更高的评估指标。此外，本文增强了Sparse4D中实例自注意力(instance self-attention)和时序交叉注意力模块(temporal cross-attention modules)的结构，引入了一种解耦注意力机制(decoupled attention mechanism)，旨在减少注意力权重计算过程中的特征干扰。如图 3 所示，当添加 anchor embedding 和实例特征作为注意力计算的输入时，所得注意力权重中存在异常值的实例。这无法准确反映目标特征之间的相互关联，导致无法聚合正确的特征。通过用 concatenation 代替 attention，本文显着减少了这种错误现象的发生。此增强功能与 Conditional DETR [33] 具有相似之处。然而，关键的区别在于本文强调 queries 之间的注意力，与 Conditional DETR 不同，其专注于 queries 和图像特征之间的交叉注意力。此外，本文的方法涉及独特的编码方法。

最后，为了提高感知系统的端到端能力，本文探索将3D多目标跟踪任务集成到Sparse4D框架中，从而能够直接输出目标运动轨迹。与 tracking-by-detection 方法不同，本文消除了数据关联和过滤的需要，将所有跟踪功能集成到检测器中。此外，与现有的联合检测和跟踪方法不同，本文的跟踪器不需要修改训练过程或损失函数。它不需要提供 ground truth IDs，但可以实现预定义的 instance-to-tracking 回归。本文的跟踪实现最大限度地集成了检测器和跟踪器，不需要修改检测器的训练过程，也不需要额外的微调。

Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

图1：Sparse4D框架概述，输入多视图视频并输出所有帧的感知结果。

Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

图 2：不同算法的 nuScenes 验证数据集上的推理效率 (FPS) – 感知性能 (mAP)。

Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

图 3：实例自注意力中的注意力权重的可视化：1）第一行显示了普通自注意力中的注意力权重，其中红色圆圈中的行人显示出与目标车辆（绿色框）的意外相关性。2）第二行显示了解耦注意力中的注意力权重，有效解决了该问题。

Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

图 4：时序实例去噪的图示。(a) 在训练阶段，实例包含两个组成部分：可学习的和噪声的。噪声实例由时间和非时间元素组成。对于噪声实例，本文采用预匹配方法来分配正样本和负样本——将 anchors 与 ground truth 进行匹配，而可学习实例与预测和 ground truth 进行匹配。在测试阶段，仅保留图中的绿色块。(b) 采用 Attention mask 来防止 groups 之间的特征传播，其中灰色表示 queries 和 keys 之间没有注意力，绿色表示相反。

Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

图 5：anchor encoder 和注意力的架构。本文独立地对 anchor 的多个组件进行高维特征编码，然后将它们连接起来。与原始 Sparse4D 相比，这种方法可以降低计算和参数开销。E 和 F 分别表示 anchor embedding 和实例特征。

Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

实验结果：

Sparse4D v3: Enhancing End-to-End 3D Detection and Tracking

总结:

本文首先提出了增强 Sparse4D 检测性能的方法。这一增强主要包括三个方面：时序实例去噪、质量估计和解耦注意力。随后，本文说明了将 Sparse4D 扩展为端到端跟踪模型的过程。本文在 nuScenes 上的实验表明，这些增强功能显着提高了性能，使 Sparse4Dv3 处于该领域的前沿。

引用：

Lin, X., Pei, Z., Lin, T., Huang, L., & Su, Z. (2023). Sparse4D v3: Advancing End-to-End 3D Detection and Tracking. ArXiv. /abs/2311.11722

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证