全部标签

多模态任务

MLLM视觉模型选择及评估研究

本文系统性探讨了MLLM中视觉模型的选择及评估方法，涵盖了对视觉能力的评估、Multimodal connector的设计、Instruction tuning数据收集等内容。通过阐述问题讨论、解决方案和实验结果，为MLLM研究领域提供了重要的理论支持和实践指导。
AI教程
- 707
- 0
用户380625294058月11日
Long-CLIP框架：图像检索任务表现显著提升的新解锁能力

Long-CLIP框架解锁了CLIP的长文本能力，显著提升了图像检索任务的表现。该框架不仅能够增强跨模态检索能力，还可即插即用地替换CLIP在图像生成等任务中。研究人员提出了保留知识的位置编码扩充和加入核心属性对齐的微调策略，使Long-CLIP在多模态任务中表现突出。
AI资讯
- 393
- 0
量子位4月1日
Emu2：突破性的多模态AI预训练模型

Emu2是一款突破性的多模态AI预训练模型，拥有37亿参数规模，适用于多项任务如视觉问答、图像生成等。可在huggingface和AI快站免费下载。
AI教程
- 378
- 0
努力犯错玩AI23年12月28日
近年多模态任务中的文本生成图像技术及模型对比

本文介绍了近年来多模态任务中的文本生成图像技术及各种模型的对比，对扩散模型、自回归模型和生成对抗网络模型进行了详细分析与评估。
AI教程
- 149
- 0
中杯可乐多加冰23年12月3日
Transformers Agents: 超级智能体助力AI多模态任务

Transformers Agents是HuggingFace推出的超级智能体，通过它可以控制10万多个Hugging Face模型完成各种多模态任务。该文章介绍了Transformers Agents的功能和用途，以及AI领域的最新进展。
AI教程
- 369
- 0
机器之心23年12月1日
Qwen-VL：阿里云研发的大规模视觉语言模型介绍

本文介绍了阿里云研发的大规模视觉语言模型Qwen-VL，包括其特点、环境配置和安装步骤。Qwen-VL是首个支持中文开放域定位的通用模型，具有多语言对话、多图交错对话和细粒度识别等特点。
AI教程
- 62
- 0
秋之23年11月22日