LEO官网链接地址:https://embodied-generalist.github.io/
网站默认显示语言:德语
LEO 介绍
LEO是一个基于大型语言模型的多模态、多任务全能代理人,能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现:(i)3D视觉语言对齐和(ii)3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集,需要对3D世界进行深入的理解和交互。通过严格的实验,我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。
LEO用户群体
LEO可用于在3D世界中完成多种任务,包括3D字幕、问答、推理、导航和机器人操作等。
LEO的核心功能
- 3D视觉语言对齐
- 3D视觉语言动作指令调整
- 3D字幕
- 问答
- 推理
- 导航
- 机器人操作