全部标签

视觉语言模型

AI玩黑神话，VARP智能体框架实现游戏操作 – 阿里研究成果

阿里研究团队提出了一个新型VARP智能体框架，能够通过视觉语言模型推理，生成Python代码形式的动作，以此来操作游戏。本研究通过AI玩黑神话的实验结果展示了VARP智能体在游戏操作方面的优势，同时也指出了在某些情况下的局限性。更多详情请访问论文地址。
AI资讯
- 177
- 0
量子位9月23日
PaliGemma视觉语言模型介绍及商业应用场景分析

本文介绍了PaliGemma视觉语言模型的特点和应用场景，包括图像字幕、视觉问答等商业应用。同时提供了微调PaliGemma以适应不同商业应用场景的实际步骤和建议。
AI资讯
- 142
- 0
快跑啊小卢5月17日
LeGo-Drive: 基于视觉语言模型的闭环端到端自动驾驶方法

LeGo-Drive是一种基于视觉语言模型的闭环端到端自动驾驶方法，通过预测目标位置和可微分优化器规划轨迹，实现了端到端闭环规划。该方法在多个仿真环境中取得显著改进，具有很好的可解释性，可用于实际自动驾驶车辆和智能交通系统。此外，文章还介绍了LeGo-Drive数据集，涵盖各种驾驶操作，包括车道变更、速度调整、转弯等，适用于闭环导航的智能驾驶agent开发。
AI资讯
- 590
- 0
自动驾驶之心4月12日
MMStar

MMStar是一个用于评估大型视觉语言模型的精英基准测试集，研究人员可以使用它评估自己训练的视觉语言模型在不同视觉语言任务上的表现，模型开发者可以通过MMStar发现模型存在的数据泄露问题，并采取相应措施，基准测试的结果可以为进一步改进现有视觉语言模型提供指导和启发。
文档助手
- 157
- 0
AI应用发布4月5日
SPRIGHT

提高文本到图像模型中空间一致性的解决方案
图像识别工具
- 218
- 0
AI应用发布4月3日
谷歌最新ScreenAI视觉语言模型 | 强大的「读屏」AI

谷歌的最新ScreenAI视觉语言模型在语言和声控计算机界面上迈出了重要一步。这一强大的「读屏」AI能够理解用户界面和信息图表，为各种屏幕QA问答、总结摘要等任务提供解决方案。论文地址:https://arxiv.org/pdf/2402.04615.pdf
AI资讯
- 167
- 0
新智元3月5日
MouSi

MouSi是一个旨在解决大型视觉语言模型挑战的多模态视觉语言模型，它采用集成专家技术对图像和文本进行处理，并探索了有效的位置编码方案。
图表生成器
- 670
- 0
AI应用发布2月18日
CheXagent

基于视觉语言基础模型的胸部X光解读工具，旨在帮助医生进行准确解读和临床决策。
医疗健康工具
- 427
- 0
AI应用发布1月23日
多模态大模型移动端应用：MobileVLM的性能和技术详解

本文详细介绍了最新的多模态大模型移动端应用MobileVLM，包括其性能和技术特点，对于对移动端AI应用感兴趣的读者具有很高的参考价值。
AI教程
- 377
- 0
机器之心1月4日
Gemini与GPT-4V视觉语言模型深入比较研究

本文章深入比较了Gemini和GPT-4V两个视觉语言模型的研究成果，对它们在多个关键维度上的表现进行了评估，对于对比研究视觉语言模型的读者具有重要参考价值。
AI资讯
- 694
- 0
戚张扬23年12月29日
CogVLM

CogVLM是一个强大的开源视觉语言模型，拥有庞大的视觉和语言参数，能够与您就图像进行对话，修复图像中的缺失部分，并生成高质量的视觉内容。
图像识别工具
- 577
- 0
AI应用发布23年12月28日
Vary

Vary 是用于大规模视觉语言模型的视觉词汇扩展的官方代码实现，通过提高模型性能，具有广泛的应用价值。
图像识别工具
- 295
- 0
AI应用发布23年12月27日
Pali3

PALI3是一种视觉语言模型，通过多阶段训练实现更小、更快、更强的效果。其主要功能包括图像编码、文本编码、文本生成等，适用于图像分类、图像字幕、视觉问答等任务。
团队协作工具
- 199
- 0
AI应用发布23年12月27日
深入研究视觉语言模型

本文深入研究了联合视觉语言模型的最新进展，重点关注了训练方式和学习策略。通过介绍对比学习、PrefixLM、Multi-modal Fusing with Cross Attention等预训练目标，展示了视觉语言模型的发展趋势和应用前景。
AI教程
- 436
- 0
那只叫栗子的猫23年12月16日
DreamSync: 一种新型人工智能框架解决T2I模型挑战

了解DreamSync，一种新型的人工智能框架，致力于提高扩散型文本到图像（T2I）模型的对齐性和审美吸引力，无需人工标注、模型架构修改或强化学习。该框架结合了视觉语言模型的双重反馈，并取得了显著的性能改进。
AI资讯
- 672
- 0
AICMTY23年12月6日
探索联合视觉语言模型的训练方式

本文介绍联合视觉语言模型的训练方式，重点关注其多模态学习和深度学习模型训练的最新进展，探讨了多种预训练目标和策略，以及其在实际应用中的表现和发展。
AI教程
- 228
- 0
HuggingFace23年12月6日
如何将语言 / 视觉输入转换为机器人动作？使用ChatGPT或GPT-4等通用模型

了解如何利用最新的语言模型和视觉模型，将语言 / 视觉输入转换为机器人动作的方法，以及如何绕过海量数据的训练过程，提高系统灵活性和适应性。
AI资讯
- 387
- 0
机器之心23年12月3日
VPGTrans 框架：极低成本训练高性能多模态大模型

本文介绍了新加坡国立大学和清华大学研究者提出的 VPGTrans 框架，通过该框架可以以极低成本训练高性能多模态大模型，实现多模态语义理解。该框架可以定制各种新的大语言模型，并开源了 VL-Vicuna 多模态对话模型。
AI教程
- 303
- 0
机器之心23年12月2日
Chat-UniVi: 统一的视觉语言方案 | 降低模型训练和推理成本

Chat-UniVi是一种统一的视觉语言方案，能够通过统一的视觉表征同时处理图片任务和视频任务，极大降低了模型的训练和推理成本。本文介绍了Chat-UniVi的方法和优势，以及在图片理解实验中的性能表现。
AI资讯
- 823
- 0
机器之心23年11月29日
阿卜杜拉国王科技大学开源具有多模态能力的MiniGPT-4 AI大模型

阿卜杜拉国王科技大学的研究团队开源了具有多模态能力的MiniGPT-4 AI大模型，该模型具有出色的多模态能力，如从手写草稿创建网站、生成详细的图像描述等，进一步推动了AI在视觉语言处理领域的发展。
AI教程
- 277
- 0
学术君23年11月24日
北大团队提出Video-LLaVA视觉语言大模型

北大研究人员提出了一种全新的视觉语言大模型—Video-LLaVA，提供了新颖的解决方案，通过LanguageBind编码器预先对齐图片和视频特征，形成统一的视觉表征，成功实现了同时理解图片和视频。
AI资讯
- 262
- 0
新智元23年11月23日
Qwen-VL：阿里云研发的大规模视觉语言模型介绍

本文介绍了阿里云研发的大规模视觉语言模型Qwen-VL，包括其特点、环境配置和安装步骤。Qwen-VL是首个支持中文开放域定位的通用模型，具有多语言对话、多图交错对话和细粒度识别等特点。
AI教程
- 62
- 0
秋之23年11月22日
GPT-4V在自动驾驶领域的探索及应用潜力

GPT-4V的发布让许多计算机视觉（CV）应用看到了新的可能，一些研究人员开始探索GPT-4V在自动驾驶领域的应用潜力。最近，一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对自动驾驶场景对GPT-4V的能力进行了难度递增的测试。
AI资讯
- 233
- 0
机器之心23年11月20日