SPARC官网链接地址:https://huggingface.co/papers/2401.09865
SPARC 介绍
SPARC是一种用于图文对预训练的简单方法,旨在从图像-文本对中预训练更细粒度的多模态表示。它利用稀疏相似度度量和对图像块和语言标记进行分组,通过对比细粒度的序列损失和全局图像与文本嵌入之间的对比损失,学习同时编码全局和局部信息的表示。SPARC在粗粒度信息的图像级任务和细粒度信息的区域级任务上均表现出改进,包括分类、检索、目标检测和分割。此外,SPARC提高了模型的可信度和图像描述能力。
SPARC用户群体
SPARC适用于图像-文本对预训练,适用于需要更细粒度理解的图像任务和模型可信度提升的场景。
图像检索模型的预训练
细粒度图像标注任务
图像分割模型的性能优化
SPARC的核心功能
- 细粒度的多模态表示预训练
- 图像级任务性能提升
- 区域级任务性能提升
- 提高模型可信度和图像描述能力