LEO

释放双眼,带上耳机,听听看~!
3D世界中的多模态、多任务全能代理人LEO,能够感知、定位、推理、规划和执行任务。通过严格的实验,展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。

LEO官网链接地址:https://embodied-generalist.github.io/

网站默认显示语言:德语

LEO 介绍

LEO是一个基于大型语言模型的多模态、多任务全能代理人,能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现:(i)3D视觉语言对齐和(ii)3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集,需要对3D世界进行深入的理解和交互。通过严格的实验,我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。

LEO用户群体

LEO可用于在3D世界中完成多种任务,包括3D字幕、问答、推理、导航和机器人操作等。

LEO的核心功能

  • 3D视觉语言对齐
  • 3D视觉语言动作指令调整
  • 3D字幕
  • 问答
  • 推理
  • 导航
  • 机器人操作
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
图像扫描工具图像识别工具

supawaldo

2024-1-3 18:07:14

响应生成器图像识别工具图像转图像工具室内与房间设计工具文本摘要工具设计助手

Zolak

2024-1-6 7:50:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索