基于卷积神经网络和LSTM的视频目标跟踪算法解析

释放双眼，带上耳机，听听看~！

本文介绍了基于卷积神经网络和LSTM的视频目标跟踪算法，包括多域网络(MDNet)和循环YOLO (ROLO)。通过深入分析这些算法，帮助读者更好地理解视觉目标跟踪和成功的关键方法。

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第19天，youtu.be/kMhwXnLgT_I

2. 基于卷积神经网络的在线训练跟踪器

这些是使用卷积神经网络的在线训练跟踪器。其中一个例子就是多域网络(MDNet)，它是VOT2015挑战赛的获胜者。由于卷积神经网络的训练在计算上非常昂贵，所以这些方法在部署期间必须使用较小的网络以快速训练。然而，较小的网络并没有太多的区分能力。一种选择是我们训练整个网络，但在推理过程中，我们使用前几层作为特征提取器，也就是说，我们只改变在线训练的最后几层的权值。因此，我们用CNN作为特征提取器，最后几层可以快速在线训练。本质上，我们的目标是训练一个能区分目标和背景的通用多域CNN。然而，这在训练中带来了一个问题，一个视频的目标可能是另一个视频的背景，这只会让我们的卷积神经网络混淆。因此，MDNet做了一些聪明的事情。它将网络重新安排为两部分：第一部分是共享部分，然后有一部分是独立于每个域的。每个域意味着一个独立的训练视频。首先在k个域上迭代训练网络，每个域都在目标和背景之间进行分类。这有助于我们提取独立于视频的信息，以便更好地学习跟踪器的通用表示。

基于卷积神经网络和LSTM的视频目标跟踪算法解析

经过训练，去除领域特定的二分类层，我们得到了一个特征提取器(上文共享网络)，它可以以通用的方式区分任何目标和背景。在推理(生产)过程中，最初的共享部分被用作特征提取器，删除特定的领域层，并在特征提取器之上添加二分类层。这个二分类层是在线训练的。在每一步中，通过随机抽样的方式搜索前一个目标状态周围的区域来寻找目标。MDNet是一种最精确的基于深度学习的在线训练，不需要检测，单目标跟踪。

3. 基于LSTM+ CNN的基于视频的目标跟踪器

另一类目标跟踪器非常流行，因为它们使用长短期记忆(LSTM)网络和卷积神经网络来完成视觉目标跟踪的任。循环YOLO (ROLO)就是这样一种单目标、在线、基于检测的跟踪算法。该算法使用YOLO网络进行目标检测，使用LSTM网络进行目标轨迹检测。LSTM与CNN的结合是厉害的，原因有二。

a) LSTM网络特别擅长历史模式的学习，特别适合于视觉目标跟踪。

b) LSTM网络的计算成本不是很高，因此可以构建非常快速的真实世界跟踪器。

基于卷积神经网络和LSTM的视频目标跟踪算法解析

YOLO INPUT – 原始输入帧

YOLO OUTPUT – 输入帧中包围框坐标的特征向量

LSTM INPUT – 拼接(图像特征，包围框坐标)

LSTM OUTPUT – 被跟踪目标的包围框坐标

上面的图我们这样理解：

输入帧通过YOLO网络。
从YOLO网络得到两个不同的输出(图像特征和边界框坐标)
这两个输出送到LSTM网络
LSTM输出被跟踪目标的轨迹，即包围框

初步的位置推断(来自YOLO)帮助LSTM注意某些视觉元素。ROLO探索了时空上的历史，即除了地理位置的历史，ROLO还探索了视觉特征的历史。即使当YOLO的检测是有缺陷的，比如运动模糊，ROLO也能保持稳定跟踪。此外，当目标物体被遮挡时，这样的跟踪器不太会失败。

最近，有更多基于LSTM的目标跟踪器，它们通过许多改进比ROLO好得多。但是，我们在这里选择了ROLO，因为它简单且容易理解。

希望这篇文章能让你对视觉目标跟踪有一个很好的理解，并对一些成功的关键目标跟踪方法有一些见解。

英文原文：cv-tricks.com/object-trac…

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

基于卷积神经网络和LSTM的视频目标跟踪算法解析

2. 基于卷积神经网络的在线训练跟踪器

3. 基于LSTM+ CNN的基于视频的目标跟踪器

自然语言处理中的Tokenization和词嵌入向量

未来百科：探索全球优质AI工具的导航网站

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

2. 基于卷积神经网络的在线训练跟踪器

3. 基于LSTM+ CNN的基于视频的目标跟踪器

自然语言处理中的Tokenization和词嵌入向量

未来百科：探索全球优质AI工具的导航网站

Inception深度卷积神经网络架构在ILSVRC14中的性能分析

FPN优化对目标检测性能的影响及解决方案

YOLOv3-SPP模型结构及SPP模块深度剖析

LSTM深度学习网络解析及实例说明