全部标签

视觉模型

Florence

Florence-2是一种统一的视觉任务基础模型，适用于多种计算机视觉和视觉-语言任务。
文件管理助手
- 585
- 0
AI应用发布6月24日
Page Assist

Page Assist是一个强大的工具，可以通过边栏和Web用户界面利用本地AI模型，为用户提供便捷的AI交互体验。
未分类
- 567
- 0
AI应用发布6月9日
llama3v

llama3v是基于llama3 8B的SOTA视觉模型，结合了图像识别和文本生成的能力。
图像识别工具
- 135
- 0
AI应用发布5月29日
自动驾驶AI研究与发展——DriveVLM的视觉语言模型

了解自动驾驶AI技术发展，DriveVLM视觉语言模型在自动驾驶系统中的应用与优势。深入解析自动驾驶领域的最新研究成果，探讨AI技术在自动驾驶系统中的重要性和应用前景。
AI资讯
- 630
- 0
机器之心2月23日
Google AI团队发布新视觉语言模型ScreenAI及三个数据集

Google AI团队最近提出了名为ScreenAI的新视觉语言模型，旨在全面理解用户界面（UI）和信息图。该模型在多个任务上表现出色，包括图形问答（QA）、元素注释、摘要生成等。团队还发布了三个新数据集，为未来研究提供更多资源。
AI资讯
- 826
- 0
AICMTY2月21日
SpatialVLM: 赋予视觉语言模型空间推理能力的新窗口

了解谷歌提出的新型视觉语言模型SpatialVLM，该模型赋予了视觉语言模型类似于人类的空间推理能力，通过结合面向开放词汇的目标检测、度量深度估计、语义分割等技术，实现了在大规模地密集注释真实世界数据。了解如何通过该模型实现空间推理能力的提升。
AI资讯
- 276
- 0
机器之心2月19日
基于Transformer+自回归预训练的视觉模型训练方法

了解基于Transformer+自回归预训练的视觉模型训练方法，探讨其模型结构、实验结果和优化目标，以及对图像分类任务的影响。该方法可能成为图像大模型预训练的一种主要方式。
AI资讯
- 605
- 0
Fareise1月29日
VMamba: 改变视觉模型游戏规则的下一代AI

VMamba是一种具有全局感受野、线性复杂度的视觉Mamba模型，正在改变视觉模型的游戏规则。论文介绍了VMamba的结构和性能，以及对比实验结果，为了提高AI圈的性能。详细了解VMamba的创新技术和实验结果。
AI资讯
- 438
- 0
机器之心1月22日
VMamba

VMamba是一种视觉状态空间模型，具有线性复杂度和全局感知的特点，适用于图像处理和计算机视觉领域的各种任务。
图像识别工具
- 322
- 0
AI应用发布1月19日
AIM

研究涉及大规模自回归图像模型预训练，旨在优化和扩展视觉模型的性能。
图像识别工具
- 650
- 0
AI应用发布1月17日
清华大学研究团队推出LLM4VG基准评估视频时序定位性能

本文介绍了清华大学研究团队推出的LLM4VG基准，用于评估大语言模型在视频时序定位任务中的性能，探讨了两种策略对性能的影响，为未来研究指明了方向。
AI资讯
- 699
- 0
故渊1月2日
机器人基础模型：应用、发展和挑战

这篇综述论文总结了机器人领域使用的基础模型，探讨了现有视觉和语言模型在机器人任务中的应用和发展，以及面临的挑战。
AI资讯
- 494
- 0
机器之心1月1日
智谱AI开源CogAgent视觉语言模型，支持GUI理解和导航

智谱AI开源了CogAgent，一个拥有180亿参数规模的视觉语言模型，支持GUI理解和导航，具有SOTA的通用性能，在OCR相关任务方面表现出色。Github链接：https://github.com/CogNLP/CogAGENT
AI资讯
- 378
- 0
AICMTY23年12月21日
Alpha-CLIP模型及其应用场景

了解Alpha-CLIP模型及其应用场景，包括图像生成、点云生成等多个领域，以及上海交通大学、复旦大学、香港中文大学、澳门大学等机构的学者们的最新研究成果。
AI资讯
- 364
- 0
新智元23年12月13日
MiracleVision 4.0发布：AI设计和AI视频能力全新升级

MiracleVision4.0发布，带来了AI设计和AI视频两大新能力，包括视觉模型商店和视频生成能力，特别适用于电商和广告行业。
AI资讯
- 145
- 0
AICMTY23年12月5日
Chat-UniVi: 130亿参数的统一视觉语言大模型

Chat-UniVi是一个具有130亿参数的统一视觉语言大模型，能够同时处理图片和视频任务，通过动态视觉token和多尺度表征实现了卓越性能，为深度学习模型的训练和推理提供更加便捷和经济的解决方案。
AI资讯
- 611
- 0
AICMTY23年11月29日
HELPER：基于大语言模型和视觉模型的智能语音助手

了解HELPER：基于大语言模型和视觉模型的智能语音助手，探索人机对话、语音助手的未来发展方向。
AI资讯
- 154
- 0
AIGC开放社区23年11月22日
Octopus：让AI模型成为GTA五星玩家

本文介绍了基于视觉-语言模型Octopus的AI模型在GTA游戏中的应用，以及训练过程和实验结果。
AI资讯
- 96
- 0
机器之心23年11月11日
探讨近期火爆的大模型和自动驾驶概念

本文探讨了近期火爆的大模型在自动驾驶领域的应用，包括语言模型和视觉模型，以及端到端自动驾驶的概念。
AI资讯
- 371
- 0
Naiyan Wang23年11月9日