-
-
自动驾驶AI研究与发展——DriveVLM的视觉语言模型
了解自动驾驶AI技术发展,DriveVLM视觉语言模型在自动驾驶系统中的应用与优势。深入解析自动驾驶领域的最新研究成果,探讨AI技术在自动驾驶系统中的重要性和应用前景。- 630
- 0
-
Google AI团队发布新视觉语言模型ScreenAI及三个数据集
Google AI团队最近提出了名为ScreenAI的新视觉语言模型,旨在全面理解用户界面(UI)和信息图。该模型在多个任务上表现出色,包括图形问答(QA)、元素注释、摘要生成等。团队还发布了三个新数据集,为未来研究提供更多资源。- 826
- 0
-
SpatialVLM: 赋予视觉语言模型空间推理能力的新窗口
了解谷歌提出的新型视觉语言模型SpatialVLM,该模型赋予了视觉语言模型类似于人类的空间推理能力,通过结合面向开放词汇的目标检测、度量深度估计、语义分割等技术,实现了在大规模地密集注释真实世界数据。了解如何通过该模型实现空间推理能力的提升。- 276
- 0
-
基于Transformer+自回归预训练的视觉模型训练方法
了解基于Transformer+自回归预训练的视觉模型训练方法,探讨其模型结构、实验结果和优化目标,以及对图像分类任务的影响。该方法可能成为图像大模型预训练的一种主要方式。- 605
- 0
-
VMamba: 改变视觉模型游戏规则的下一代AI
VMamba是一种具有全局感受野、线性复杂度的视觉Mamba模型,正在改变视觉模型的游戏规则。论文介绍了VMamba的结构和性能,以及对比实验结果,为了提高AI圈的性能。详细了解VMamba的创新技术和实验结果。- 438
- 0
-
清华大学研究团队推出LLM4VG基准评估视频时序定位性能
本文介绍了清华大学研究团队推出的LLM4VG基准,用于评估大语言模型在视频时序定位任务中的性能,探讨了两种策略对性能的影响,为未来研究指明了方向。- 699
- 0
-
-
智谱AI开源CogAgent视觉语言模型,支持GUI理解和导航
智谱AI开源了CogAgent,一个拥有180亿参数规模的视觉语言模型,支持GUI理解和导航,具有SOTA的通用性能,在OCR相关任务方面表现出色。Github链接:https://github.com/CogNLP/CogAGENT- 378
- 0
-
Alpha-CLIP模型及其应用场景
了解Alpha-CLIP模型及其应用场景,包括图像生成、点云生成等多个领域,以及上海交通大学、复旦大学、香港中文大学、澳门大学等机构的学者们的最新研究成果。- 364
- 0
-
MiracleVision 4.0发布:AI设计和AI视频能力全新升级
MiracleVision4.0发布,带来了AI设计和AI视频两大新能力,包括视觉模型商店和视频生成能力,特别适用于电商和广告行业。- 145
- 0
-
Chat-UniVi: 130亿参数的统一视觉语言大模型
Chat-UniVi是一个具有130亿参数的统一视觉语言大模型,能够同时处理图片和视频任务,通过动态视觉token和多尺度表征实现了卓越性能,为深度学习模型的训练和推理提供更加便捷和经济的解决方案。- 611
- 0
-
-
-
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!