Embodied Generalist LEO：3D世界多模态全能代理人

LEO

释放双眼，带上耳机，听听看~！

3D世界中的多模态、多任务全能代理人LEO，能够感知、定位、推理、规划和执行任务。通过严格的实验，展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。

LEO官网链接地址：https://embodied-generalist.github.io/

网站默认显示语言：德语

LEO 介绍

LEO是一个基于大型语言模型的多模态、多任务全能代理人，能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现：（i）3D视觉语言对齐和（ii）3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集，需要对3D世界进行深入的理解和交互。通过严格的实验，我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。

LEO用户群体

LEO可用于在3D世界中完成多种任务，包括3D字幕、问答、推理、导航和机器人操作等。

LEO的核心功能

3D视觉语言对齐
3D视觉语言动作指令调整
3D字幕
问答
推理
导航
机器人操作

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

LEO

LEO 介绍

LEO用户群体

LEO的核心功能

supawaldo

Zolak

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

LEO 介绍

LEO用户群体

LEO的核心功能

supawaldo

Zolak

GPT-4V：通用异常检测新曙光

通义千问2.0版本发布，功能升级全面提升

OpenAI新功能揭秘：多模态时代的到来

OpenAI宣布ChatGPT新增图片识别和语音能力