Argus-3D：一款强大的多模态3D形状生成大模型

释放双眼，带上耳机，听听看~！

本文介绍了智源研究院与复旦大学联合开发的Argus-3D形状生成大模型，该模型支持多模态输入，使用transformer进行条件生成，具有高分辨率和多样性的特点，可应用于游戏开发、设计等领域的3D建模工作。

令人心潮澎湃的游戏装备、栩栩如生的VR与AR视界、充满惊奇想象的艺术与设计创作……

伴随虚拟与现实边界的日益融合，三维形状生成模型的研究备受关注。不同于当前主流大语言模型，三维形状生成比一维文本更加复杂，任务难度也更高。

近日，智源研究院与复旦大学联合带来 Argus-3D 形状生成大模型，36亿参数规模，相比 OpenAI 的 Shape-E 等模型亦表现出色。目前已部分开源。

Argus-3D：一款强大的多模态3D形状生成大模型

论文地址：

arxiv.org/abs/2306.11…

项目地址：

argus-3d.github.io

Argus-3D 可以利用图片、文字等多模态条件做控制，生成多样化3D形状，并可添加纹理与上色，辅助提升游戏开发等领域的3D建模工作效率。

Argus-3D：一款强大的多模态3D形状生成大模型

生成多样性更佳，结构与细节表现精准

Argus-3D模型可根据输入的类别信息生成3D形状，目前支持55种常见物体类别。对于样本多的物体类别，生成效果更好，如在游戏、设计等领域常见的飞机、椅子、汽车和桌子等。

通过增大模型参数，Argus-3D模型在多种类别上取得了更好的效果。

Argus-3D：一款强大的多模态3D形状生成大模型

生成多样性方面，Argus-3D 可生成丰富的物体形状。

Argus-3D：一款强大的多模态3D形状生成大模型

基于文本的3D形状生成能力方面，Argus-3D 模型具有更加优秀地生成质量表现，尤其是精准的结构与细节表达。

Shap-E 模型更关注纹理渲染，生成的 3D形状具有丰富色彩，但在结构完整性上，部分细节处碎片化严重。Argus-3D 模型更好地学习到了三维特征，能生成结构完整、轮廓流畅的3D形状，并可通过添加纹理，适配多样化的任务需求。

Argus-3D：一款强大的多模态3D形状生成大模型

可通过算法添加纹理或由设计师自由着色。

Argus-3D：一款强大的多模态3D形状生成大模型

模型可以生成相对复杂的结构和与精细的结构。放大下图可见椅子的物理结构得以完整呈现，拐角转折关系十分清晰，即使没有纹理颜色，也可通过外形表现出座椅材质。

Argus-3D：一款强大的多模态3D形状生成大模型

对于三维物体的生成“无死角”，每个空间侧面的生成都与现实结构相符，如视频中的桌子，表面十分平滑，而底面则有着丰富的空间结构。

研究方法

支持多模态输入

36亿参数，Argus-3D是当前最大3D生成模型，可以根据类别标签、文本、图像等多模态信息进行形状生成。

在训练阶段，Argus-3D采用成对的图像-形状输入。在推理阶段，研究团队利用CLIP的多模态能力，用从CLIP中提取的文本特征代取代图像特征。这一尝试让Argus-3D跨过了传统输入源的界限，无缝地支持多种输入模式。

输入图像生成3D形状网格。

Argus-3D：一款强大的多模态3D形状生成大模型

利用 transformer 进行多模式条件生成

近期 3D 生成模型多基于扩散模型，扩散模型在生成分辨率上存在瓶颈。而transformer能通过增大模型来获得性能提升，这已在 LLM 上得到了验证。研究团队尝试将 transformer 放大并应用在3D生成上，利用自回归模型来获得更强的 3D形状生成能力。

自回归模型在训练过程中稳定性较好，然而，在三维形状生成领域，由于缺乏有效的表示方法，大多数自回归模型难以生成结构复杂、细节丰富的三维形状。为此，研究团队改编了自动回归模型，并扩大了可学习参数的规模。

如何应对 transformer 体系结构的计算需求也是一个难点。对此，研究团队探索了更高效的 transformer 架构以及新颖的3D形状数据表示。基于 transformer 的模型具备高度的可扩展性，使复杂形状更高效建模。

引入潜在表示学习方法，降低计算复杂度，提高分辨率和多样性

现有3D形状生成模型在实际应用中的一个主要限制是难生成高分辨率的3D形状，细节不足、缺乏纹理细粒会影响视觉保真度和真实感。此外，这些模型缺乏多样性，通常只能生成有限数量的相似形状，这限制了模型在实际任务中的可用性。

Argus-3D通过提高生成的 3D 形状的质量和多样性来克服现有方法的局限性。Argus-3D模型将三平面特征作为潜在表示，有效降低了计算复杂度。三维数据随分辨率增大，存储资源和计算资源呈立方增长。研究团队使用三个正交投影的平面表示物体的特征，将计算复杂度从立方降低到平方，提高了生成形状的分辨率。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

Argus-3D：一款强大的多模态3D形状生成大模型

生成多样性更佳，结构与细节表现精准

AlexNet：深度学习计算机视觉领域的崭露头角

LightGBM在GPU上的并行计算特性介绍

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

生成多样性更佳，结构与细节表现精准

AlexNet：深度学习计算机视觉领域的崭露头角

LightGBM在GPU上的并行计算特性介绍

ChatGPT：了解其火爆背后的技术和应用

讯飞星火大模型，全场景开放，助力程序员提升工作效率

老黄现场演示与游戏NPC聊天！大模型开口建议玩家去找犯罪头目，网友：西部世界成真

国产大模型天工推理能力超GPT-3.5，冲进OpenAI评测榜第一梯队