全部标签

视觉任务

PSALM模型：多模态大模型在视觉任务中的应用挑战及解决方案

本文介绍了多模态大模型在视觉任务中的挑战和解决方案，重点介绍了PSALM模型的设计理念、特点以及如何实现，对于对图像分割感兴趣的人士具有重要参考价值。
AI资讯
- 701
- 0
机器之心4月8日
DINOv2：无需微调就能用于多种视觉任务

Meta开源了DINOv2模型，无需微调就能用于分类、分割、图像检索、深度估计等下游任务。该模型使用自监督学习方式进行训练，不需要大量标记数据，具有很高的应用潜力。
AI教程
- 318
- 0
机器之心23年12月6日
探索大型视觉模型（LVM）构建的关键特征和研究成果

本文探讨了构建大型视觉模型（LVM）所需的关键特征和研究成果，包括对数据、架构和损失函数的讨论，以及对模型性能和潜在应用的展望。
AI资讯
- 524
- 0
机器之心23年12月5日
把 GAN 运用在其他视觉任务上 | 图像超分经典网络 SRGAN 解析

本文介绍了将GAN应用于视觉任务的方法，重点解析了图像超分经典网络SRGAN的原理和应用。通过学习SRGAN的框架和GAN的原理，初学者可以了解GAN在其他视觉任务上的应用，并深入理解SRGAN的训练算法。
AI教程
- 335
- 0
OpenMMLab23年12月1日
Scalable Self-Attention: 一种新型的自我注意机制

论文提出了一种可伸缩自我注意(Scalable Self-Attention, SSA)机制，利用两个可伸缩因子来释放查询、键和值矩阵的维度，同时解除它们与输入的绑定。通过交替叠加SSA和基于窗口的交互式自注意(IWSA)，Scalable Vision Transformer (ScalableViT)在通用视觉任务上实现了优于SOTA的性能。
AI教程
- 83
- 0
CV技术指南23年11月30日
ProPainter: 一种新的视频修复技术

了解ProPainter框架的新方法和高效的遮罩引导视频Transformers，以及如何使用它进行视频修复和水印去除。
AI教程
- 395
- 0
刘悦的技术博客23年11月22日