多模态大语言模型的训练策略研究

释放双眼，带上耳机，听听看~！

本文章主要研究了多模态大语言模型的训练策略，包括指示遵循能力、训练数据质量以及零样本能力的影响。作者提出了新的benchmark Open-VQA，并提出了Lynx模型，在多模态理解能力和生成能力方面表现出了优异的性能。

作者：郑佳妮

多模态大语言模型的训练策略研究

写在前面

当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而，这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择，但这些选择并没有在先前的文献中被广泛讨论。此外，目前也缺乏合适的基准 (benchmarks) 来评估和比较这些模型，限制了多模态 LLMs 的发展。

在这篇文章中，作者从定量和定性两个方面对此类模型的训练进行了系统和全面的研究。设置了20多种变体，对于网络结构，比较了不同的 LLMs 主干和模型设计；对于训练数据，研究了数据和采样策略的影响；在指令方面，探讨了多样化提示对模型指令跟随能力的影响。对于 benchmarks ，文章首次提出包括图像和视频任务的开放式视觉问答评估集** **Open-VQA。

基于实验结论，作者提出了 Lynx，与现有的开源 GPT4-style 模型相比，它在表现出最准确的多模态****理解能力的同时，保持了最佳的多模态生成能力。

论文：arxiv.org/abs/2307.02…

网站：lynx-llm.github.io/

代码：github.com/bytedance/l…

外部分享链接：mp.weixin.qq.com/s/FbToXiAEF…

评估方案

不同于典型的视觉语言任务，评估 GPT4-style 模型的主要挑战在于平衡文本生成能力和多模态****理解准确性两个方面的性能。为了解决这个问题，作者提出了一种包含视频和图像数据的新 benchmark Open-VQA，并对当前的开源模型进行了全面的评价。

具体来说，采用了两种量化评价方案：

1）收集开放式视觉问答 (Open-VQA) 测试集，其包含关于物体、OCR、计数、推理、动作识别、时间顺序等不同类别的问题。不同于有标准答案的VQA数据集，Open-VQA的答案是开放式的。为了评估Open-VQA上的性能，使用GPT4作为判别器，其结果与人类评估有95%的一致性。

2）此外，作者采用了由 mPLUG-owl[1] 提供的 OwlEval 数据集来评估模型的文本生成能力，虽然只包含50张图片82个问题，但涵盖故事生成、广告生成、代码生成等多样问题，并招募人工标注员对不同模型的表现进行打分。

结论

为了深入研究多模态 LLMs 的训练策略，作者主要从网络结构（前缀微调/交叉注意力）、训练数据（数据选择及组合比例）、指示（单一指示/多样化指示）、LLMs模型（LLaMA[5]/Vicuna[6]）、图像像素（420/224）等多个方面设置了二十多种变体，通过实验得出了以下主要结论：

多模态** LLMs 的指示遵循能力不如 ****LLMs。**例如，InstructBLIP[2] 倾向于不管输入指令如何都生成简短的回复，而其他模型倾向于生成长句子而不考虑指令，作者认为这是由于缺乏高质量和多样化的多模态指令数据所导致的。
**训练数据****的质量对模型的性能至关重要。**基于在不同的数据上进行实验的结果，发现使用少量的高质量数据比使用大规模的噪声数据表现得更好。作者认为这是生成式训练和对比式训练的区别，因为生成式训练是直接学习词的条件分布而不是文本和图像的相似度。因此，为了更好的模型性能，在数据方面需要满足两点：1）包含高质量的流畅文本；2）文本和图像内容对齐得较好。
任务和提示对零样本** (zero-shot) ****能力至关重要。**使用多样化任务和指令可以提升模型在未知任务上的零样本生成能力，这与纯文本模型中的观察结果一致。
**平衡正确性和语言生成能力是很重要的。**如果模型在下游任务(如VQA)上训练不足，更可能生成与视觉输入不符的编造的内容；而如果模型在下游任务中训练过多，它则倾向于生成短答案，将无法按照用户的指示生成较长的答案。
前缀微调** (prefix-finetuning, PT) 更易进行 LLMs 的多模态****适配。**在实验中，prefix-finetuning 结构的模型能更快地提升对多样化指示的遵循能力，比交叉注意力 (cross-attention, CA) 的模型结构更易训练。（prefix-tuning 和 cross-attention 为两种模型结构，具体见 Lynx 模型介绍部分）

Lynx模型

作者提出了 Lynx**（猞猁）——进行了两阶段训练的 prefix-finetuning 的 GPT4-style 模型。在第一阶段，使用大约120M**图像-文本对来对齐视觉和语言嵌入 (embeddings) ；在第二阶段，使用20个图像或视频的多模态任务以及自然语言处理 (NLP) 数据来调整模型的指令遵循能力。

多模态大语言模型的训练策略研究

Lynx 模型的整体结构如上图 Figure 1 所示。

视觉输入经过视觉编码器处理后得到视觉令牌 (tokens) ，经过映射后与指令 tokens 拼接作为 LLMs 的输入，在本文中将这种结构称为 “prefix-finetuning”** 以区别于如 Flamingo[3] 所使用的 cross-attention **结构。

此外，作者发现，通过在冻结 (frozen) 的 LLMs 某些层后添加**适配器**** (Adapter) **可以进一步降低训练成本。

模型效果

作者测评了现有的开源多模态 LLMs 模型在 Open-VQA、Mme[4]** 及 OwlEval ****人工测评上的表现（结果见后文图表，评估细节见论文）。可以看到 Lynx 模型在 Open-VQA 图像和视频理解任务、OwlEval 人工测评及 Mme Perception **类任务中都取得了最好的表现。其中，InstructBLIP 在多数任务中也实现了高性能，但其回复过于简短，相较而言，在大多数情况下 Lynx 模型在给出正确的答案的基础上提供了简明的理由来支撑回复，这使得它对用户更友好（部分cases 见后文 Cases展示部分）。

1）在 Open-VQA 图像测试集上的指标结果如下图 Table 1 所示：

多模态大语言模型的训练策略研究

2）在 Open-VQA 视频测试集上的指标结果如下图 Table 2 所示。

多模态大语言模型的训练策略研究

3）选取 Open-VQA 中得分排名靠前的模型进行 OwlEval 测评集上的人工效果评估，其结果如上图 Figure 4 所示。从人工评价结果可以看出 Lynx** **模型具有最佳的语言生成性能。

多模态大语言模型的训练策略研究

4）在 Mme benchmark 测试中，Perception** 类任务获得最好的表现，其中14类子任务中有7个表现最优**。（详细结果见论文附录）

Cases展示

Open-VQA 图片cases

多模态大语言模型的训练策略研究

OwlEval cases

多模态大语言模型的训练策略研究

Open-VQA 视频 case

多模态大语言模型的训练策略研究

总结

在本文中，作者通过对二十多种多模态 LLMs 变种的实验，确定了以 prefix-finetuning 为主要结构的 Lynx 模型并给出开放式答案的 Open-VQA 测评方案。实验结果显示 Lynx 模型表现最准确的多模态理解准确度的同时，保持了最佳的多模态生成能力。

参考文献

[1] Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv preprint arXiv:2304.14178, 2023.

[2] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general-purpose vision-language models with instruction tuning. arXiv preprint arXiv:2305.06500, 2023.

[3] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in Neural Information Processing Systems, 35:23716–23736, 2022.

[4] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, and Rongrong Ji. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.

[5] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[6] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, March 2023. URL lmsys.org/blog/2023-0….

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

多模态大语言模型的训练策略研究

作者：郑佳妮

写在前面

评估方案

结论

Lynx模型

模型效果

Cases展示

总结

参考文献

LangChain基础组件详解

王小川入局中国大模型创业，新公司百川智能正式成立

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

作者：郑佳妮

写在前面

评估方案

结论

Lynx模型

模型效果

Cases展示

总结

参考文献

LangChain基础组件详解

王小川入局中国大模型创业，新公司百川智能正式成立

唇语识别：训练模型和策略详解

OpenAI发布GPT-4：多模态模型的新里程碑

微软&哥大发布视觉指令微调论文LLaVA，多模态模型的新进展

OpenAI发布GPT-4：多模态模型引领新时代