全部标签

多模态融合

基于条件扩散的生成模型感知算法DifFUSER详细分析

本文详细介绍了基于条件扩散的生成模型感知算法DifFUSER，旨在解决自动驾驶感知任务中多模态数据融合和去噪问题，特别聚焦在BEV空间的语义分割和3D目标检测任务上。通过分析算法模型的网络结构和关键组成部分，探讨了如何利用生成模型来提高多传感器之间的多模态融合效率和准确性。
AI资讯
- 829
- 0
Fangzh4月22日
视觉-语言模型：理解与应用

本文介绍了视觉-语言模型的定义、应用领域和预训练模型，帮助你更好地理解和利用图像和文本之间的语义关系。
AI教程
- 388
- 0
中杯可乐多加冰23年12月4日
不良条件下视觉感知的挑战与解决方法

本教程围绕不良条件下的视觉感知挑战展开，介绍了域自适应和多模态融合等解决方法，并讨论了恶劣天气下的视觉算法应用。
AI教程
- 77
- 0
CV技术指南23年12月3日
北大团队提出Video-LLaVA视觉语言大模型

北大研究人员提出了一种全新的视觉语言大模型—Video-LLaVA，提供了新颖的解决方案，通过LanguageBind编码器预先对齐图片和视频特征，形成统一的视觉表征，成功实现了同时理解图片和视频。
AI资讯
- 262
- 0
新智元23年11月23日
Video-LLaVA: 一种全新视觉语言大模型

Video-LLaVA是一种全新的视觉语言大模型，实现了多模态融合，同时理解图片和视频，为大语言模型的发展带来新的可能性。
AI资讯
- 456
- 0
新智元23年11月23日