-
AI玩黑神话,VARP智能体框架实现游戏操作 – 阿里研究成果
阿里研究团队提出了一个新型VARP智能体框架,能够通过视觉语言模型推理,生成Python代码形式的动作,以此来操作游戏。本研究通过AI玩黑神话的实验结果展示了VARP智能体在游戏操作方面的优势,同时也指出了在某些情况下的局限性。更多详情请访问论文地址。- 177
- 0
-
PaliGemma视觉语言模型介绍及商业应用场景分析
本文介绍了PaliGemma视觉语言模型的特点和应用场景,包括图像字幕、视觉问答等商业应用。同时提供了微调PaliGemma以适应不同商业应用场景的实际步骤和建议。- 142
- 0
-
LeGo-Drive: 基于视觉语言模型的闭环端到端自动驾驶方法
LeGo-Drive是一种基于视觉语言模型的闭环端到端自动驾驶方法,通过预测目标位置和可微分优化器规划轨迹,实现了端到端闭环规划。该方法在多个仿真环境中取得显著改进,具有很好的可解释性,可用于实际自动驾驶车辆和智能交通系统。此外,文章还介绍了LeGo-Drive数据集,涵盖各种驾驶操作,包括车道变更、速度调整、转弯等,适用于闭环导航的智能驾驶agent开发。- 590
- 0
-
谷歌最新ScreenAI视觉语言模型 | 强大的「读屏」AI
谷歌的最新ScreenAI视觉语言模型在语言和声控计算机界面上迈出了重要一步。这一强大的「读屏」AI能够理解用户界面和信息图表,为各种屏幕QA问答、总结摘要等任务提供解决方案。论文地址:https://arxiv.org/pdf/2402.04615.pdf- 167
- 0
-
多模态大模型移动端应用:MobileVLM的性能和技术详解
本文详细介绍了最新的多模态大模型移动端应用MobileVLM,包括其性能和技术特点,对于对移动端AI应用感兴趣的读者具有很高的参考价值。- 377
- 0
-
Gemini与GPT-4V视觉语言模型深入比较研究
本文章深入比较了Gemini和GPT-4V两个视觉语言模型的研究成果,对它们在多个关键维度上的表现进行了评估,对于对比研究视觉语言模型的读者具有重要参考价值。- 694
- 0
-
深入研究视觉语言模型
本文深入研究了联合视觉语言模型的最新进展,重点关注了训练方式和学习策略。通过介绍对比学习、PrefixLM、Multi-modal Fusing with Cross Attention等预训练目标,展示了视觉语言模型的发展趋势和应用前景。- 436
- 0
-
DreamSync: 一种新型人工智能框架解决T2I模型挑战
了解DreamSync,一种新型的人工智能框架,致力于提高扩散型文本到图像(T2I)模型的对齐性和审美吸引力,无需人工标注、模型架构修改或强化学习。该框架结合了视觉语言模型的双重反馈,并取得了显著的性能改进。- 672
- 0
-
-
如何将语言 / 视觉输入转换为机器人动作?使用ChatGPT或GPT-4等通用模型
了解如何利用最新的语言模型和视觉模型,将语言 / 视觉输入转换为机器人动作的方法,以及如何绕过海量数据的训练过程,提高系统灵活性和适应性。- 387
- 0
-
VPGTrans 框架:极低成本训练高性能多模态大模型
本文介绍了新加坡国立大学和清华大学研究者提出的 VPGTrans 框架,通过该框架可以以极低成本训练高性能多模态大模型,实现多模态语义理解。该框架可以定制各种新的大语言模型,并开源了 VL-Vicuna 多模态对话模型。- 303
- 0
-
Chat-UniVi: 统一的视觉语言方案 | 降低模型训练和推理成本
Chat-UniVi是一种统一的视觉语言方案,能够通过统一的视觉表征同时处理图片任务和视频任务,极大降低了模型的训练和推理成本。本文介绍了Chat-UniVi的方法和优势,以及在图片理解实验中的性能表现。- 823
- 0
-
阿卜杜拉国王科技大学开源具有多模态能力的MiniGPT-4 AI大模型
阿卜杜拉国王科技大学的研究团队开源了具有多模态能力的MiniGPT-4 AI大模型,该模型具有出色的多模态能力,如从手写草稿创建网站、生成详细的图像描述等,进一步推动了AI在视觉语言处理领域的发展。- 277
- 0
-
北大团队提出Video-LLaVA视觉语言大模型
北大研究人员提出了一种全新的视觉语言大模型—Video-LLaVA,提供了新颖的解决方案,通过LanguageBind编码器预先对齐图片和视频特征,形成统一的视觉表征,成功实现了同时理解图片和视频。- 262
- 0
-
Qwen-VL:阿里云研发的大规模视觉语言模型介绍
本文介绍了阿里云研发的大规模视觉语言模型Qwen-VL,包括其特点、环境配置和安装步骤。Qwen-VL是首个支持中文开放域定位的通用模型,具有多语言对话、多图交错对话和细粒度识别等特点。- 62
- 0
-
GPT-4V在自动驾驶领域的探索及应用潜力
GPT-4V的发布让许多计算机视觉(CV)应用看到了新的可能,一些研究人员开始探索GPT-4V在自动驾驶领域的应用潜力。最近,一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对自动驾驶场景对GPT-4V的能力进行了难度递增的测试。- 233
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!