基于卷积神经网络和LSTM的视频目标跟踪算法解析

释放双眼,带上耳机,听听看~!
本文介绍了基于卷积神经网络和LSTM的视频目标跟踪算法,包括多域网络(MDNet)和循环YOLO (ROLO)。通过深入分析这些算法,帮助读者更好地理解视觉目标跟踪和成功的关键方法。

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第19天,youtu.be/kMhwXnLgT_I

2. 基于卷积神经网络的在线训练跟踪器

这些是使用卷积神经网络的在线训练跟踪器。其中一个例子就是多域网络(MDNet),它是VOT2015挑战赛的获胜者。由于卷积神经网络的训练在计算上非常昂贵,所以这些方法在部署期间必须使用较小的网络以快速训练。然而,较小的网络并没有太多的区分能力。一种选择是我们训练整个网络,但在推理过程中,我们使用前几层作为特征提取器,也就是说,我们只改变在线训练的最后几层的权值。因此,我们用CNN作为特征提取器,最后几层可以快速在线训练。本质上,我们的目标是训练一个能区分目标和背景的通用多域CNN。然而,这在训练中带来了一个问题,一个视频的目标可能是另一个视频的背景,这只会让我们的卷积神经网络混淆。因此,MDNet做了一些聪明的事情。它将网络重新安排为两部分:第一部分是共享部分,然后有一部分是独立于每个域的。每个域意味着一个独立的训练视频。首先在k个域上迭代训练网络,每个域都在目标和背景之间进行分类。这有助于我们提取独立于视频的信息,以便更好地学习跟踪器的通用表示。

基于卷积神经网络和LSTM的视频目标跟踪算法解析

经过训练,去除领域特定的二分类层,我们得到了一个特征提取器(上文共享网络),它可以以通用的方式区分任何目标和背景。在推理(生产)过程中,最初的共享部分被用作特征提取器,删除特定的领域层,并在特征提取器之上添加二分类层。这个二分类层是在线训练的。在每一步中,通过随机抽样的方式搜索前一个目标状态周围的区域来寻找目标。MDNet是一种最精确的基于深度学习的在线训练,不需要检测,单目标跟踪。

3. 基于LSTM+ CNN的基于视频的目标跟踪器

另一类目标跟踪器非常流行,因为它们使用长短期记忆(LSTM)网络和卷积神经网络来完成视觉目标跟踪的任。循环YOLO (ROLO)就是这样一种单目标、在线、基于检测的跟踪算法。该算法使用YOLO网络进行目标检测,使用LSTM网络进行目标轨迹检测。LSTM与CNN的结合是厉害的,原因有二。

a) LSTM网络特别擅长历史模式的学习,特别适合于视觉目标跟踪。

b) LSTM网络的计算成本不是很高,因此可以构建非常快速的真实世界跟踪器。

基于卷积神经网络和LSTM的视频目标跟踪算法解析

YOLO INPUT   – 原始输入帧

YOLO OUTPUT – 输入帧中包围框坐标的特征向量

LSTM INPUT   – 拼接(图像特征,包围框坐标)

LSTM OUTPUT –  被跟踪目标的包围框坐标

上面的图我们这样理解:

  • 输入帧通过YOLO网络。
  • 从YOLO网络得到两个不同的输出(图像特征和边界框坐标)
  • 这两个输出送到LSTM网络
  • LSTM输出被跟踪目标的轨迹,即包围框

初步的位置推断(来自YOLO)帮助LSTM注意某些视觉元素。ROLO探索了时空上的历史,即除了地理位置的历史,ROLO还探索了视觉特征的历史。即使当YOLO的检测是有缺陷的,比如运动模糊,ROLO也能保持稳定跟踪。此外,当目标物体被遮挡时,这样的跟踪器不太会失败。

最近,有更多基于LSTM的目标跟踪器,它们通过许多改进比ROLO好得多。但是,我们在这里选择了ROLO,因为它简单且容易理解。

希望这篇文章能让你对视觉目标跟踪有一个很好的理解,并对一些成功的关键目标跟踪方法有一些见解。

英文原文:cv-tricks.com/object-trac…

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

自然语言处理中的Tokenization和词嵌入向量

2023-12-8 2:42:14

AI教程

未来百科:探索全球优质AI工具的导航网站

2023-12-8 3:42:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索