清华大学研究团队推出LLM4VG基准评估视频时序定位性能

释放双眼，带上耳机，听听看~！

本文介绍了清华大学研究团队推出的LLM4VG基准，用于评估大语言模型在视频时序定位任务中的性能，探讨了两种策略对性能的影响，为未来研究指明了方向。

AICMTY.com

12 月 29 日消息，大语言模型（LLM）的触角已经从单纯的自然语言处理，扩展到文本、音频、视频等多模态领域，而其中一项关键就是视频时序定位（Video Grounding，VG）。

VG 任务的目的基于给定查询（一句描述），然后在目标视频段中定位起始和结束时间，核心挑战在于时间边界定位的精度。

清华大学研究团队近日推出了“LLM4VG”基准，这是一个专门设计用于评估 LLM 在 VG 任务中的性能。

此基准考虑了两种主要策略：第一种涉及直接在文本视频数据集（VidLLM）上训练的视频 LLM，第二种是结合传统的 LLM 与预训练的视觉模型。

清华大学研究团队推出LLM4VG基准评估视频时序定位性能

在第一种策略中，VidLLM 直接处理视频内容和 VG 任务指令，根据其对文本-视频的训练输出预测。

第二种策略更为复杂，涉及 LLM 和视觉描述模型。这些模型生成与 VG 任务指令集成的视频内容的文本描述，通过精心设计的提示。

这些提示经过专门设计，可以有效地将 VG 的指令与给定的视觉描述结合起来，从而让 LLM 能够处理和理解有关任务的视频内容。

据观察，VidLLM 尽管直接在视频内容上进行训练，但在实现令人满意的 VG 性能方面仍然存在很大差距。这一发现强调了在训练中纳入更多与时间相关的视频任务以提高性能的必要性。

清华大学研究团队推出LLM4VG基准评估视频时序定位性能

而第二种策略优于 VidLLM，为未来的研究指明了一个有希望的方向。该策略主要限制于视觉模型的局限性和提示词的设计，因此能够生成详细且准确的视频描述后，更精细的图形模型可以大幅提高 LLM 的 VG 性能。

清华大学研究团队推出LLM4VG基准评估视频时序定位性能

总之，该研究对 LLM 在 VG 任务中的应用进行了开创性的评估，强调了在模型训练和提示设计中需要更复杂的方法。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证