《我的世界》大模型AI表现分析及优化建议

释放双眼，带上耳机，听听看~！

本文分析了GPT-4o和Claude3.5在《我的世界》中的表现，并提出了针对AI优化的建议。了解大模型AI在游戏中的互动方式，并探讨了如何改进Agent框架以避免意外行为。

把《我的世界》交给大模型，会怎么样？

GPT-4o 鲨牛宰羊，Claude3.5 不停在人类身旁放炸药包和敌人，还把家拆了。

《我的世界》大模型AI表现分析及优化建议

GPT-4o mini 玩《我的世界》belike：

视频详情

看到这，网友实在蚌埠住了：

《我的世界》大模型AI表现分析及优化建议

我只是想让它成为我的游戏搭子。

《我的世界》大模型AI表现分析及优化建议

GPT-4o、Claude3.5 的表现被发在 X 上引来不少网友围观。

为什么这个玩法现在这么火呢，因为有大佬开源了代码（doge）。

目前在 GitHub 已狂揽 1.1k Star。

《我的世界》大模型AI表现分析及优化建议

网友们纷纷表示想看看其它 AI 的表现，比如游戏达人马斯克家的 Grok 大模型，会怎么样。

《我的世界》大模型AI表现分析及优化建议

“LLM 是对齐的，LLM Agent 未必对齐”

有网友通过这件事，做出了更深一层的思考——

LLM Agent 是否会因为 LLM 对齐而对齐？

在这位网友看来，未必。

《我的世界》大模型AI表现分析及优化建议

他让 Claude Sonnet 进入《我的世界》，Claude Sonnet 的表现一开始是极好的。

四处打材料，来建造一个树屋。

《我的世界》大模型AI表现分析及优化建议

可以看到，Sonnet 会执行 commands() 命令，这就是 Sonnet 和其它 LLM 与《我的世界》互动的方式。

这些 Agent 并不是会获得连续的图像输入并像人类一样通过按键响应。

实际上，在这个 Agent 框架中，Sonnet 体验《我的世界》就像在玩一场文本冒险游戏。

它们可以查询周围世界的状态，然后编写代码使用动作，如 followPlayer()、collectBlocks()，通过高级文本命令来控制它们的角色。

ClaudeSonnet：看起来我们得到了一些藤蔓，让我们试着收集一些丛林木头来扩展树屋。(collectBlocks(“jungle_log”, 15))

《我的世界》大模型AI表现分析及优化建议

Sonnet 并不能看到游戏，这是怎么实现的？

网友继续介绍道，collectBlocks() 函数是用 JavaScript 编写的，它简单地查找所有附近的所需类型的方块，并开始循环挖掘它们：

《我的世界》大模型AI表现分析及优化建议

因为房子是用木头造的，所以 Sonnet 调用了这个函数来砍树搜集木材。

一切进行正常，直到突然间，Sonnet 开始拆家……

《我的世界》大模型AI表现分析及优化建议

网友立刻让 Sonnet 停了下来，最后修好了房子。

但他表示：

随着我们在越来越广泛的场景中部署 Agent，这种问题成为一个真正的担忧。如果这不是《我的世界》中的角色，而是一个实体机器人呢？或者是一个向技能库委派任务的编程 Agent 呢？

这位网友继续补充道，Sonnet 并不傻，它能够轻易从截图区分出哪些木材属于玩家结构，哪些是自然且安全的采集对象。

但 Sonnet 并不直接控制其《我的世界》角色，而是由 Agent 框架控制。这个框架迫使 Sonnet 将任务分配给功能较弱、并不完全对齐的子 Agent，使整个系统执行了 Sonnet 单独不会做出的行为。

所以他认为一些脚本仅由大模型 Agent 编写后放任执行，不进行人工监督的话可能引发一些严重的问题。

同时，他还认为应该设计 Agent 框架给大模型更多的自主精细控制权限。

比如将 collectBlocks() 函数设有专门用于采集自然树木的 collectTree() 变体，就能减轻 Sonnet 拆家的问题。

总的来说，这位网友的观点是，Sonnet 其实能够明白其目标是采集树木而非房屋的木材，但其工具未能准确表达这一意图。

不少网友持类似观点。

就拿开头 GPT-4o mini 疯狂杀牛宰羊来说，网友认为狩猎是一种自动行为，并不是 GPT-4o mini 的错。

《我的世界》大模型AI表现分析及优化建议

LLM 可以选择关闭狩猎模式，GPT-4o min 只是没有意识到它可以这样做。

《我的世界》大模型AI表现分析及优化建议

还有网友提出或许可以这样优化：

《我的世界》大模型AI表现分析及优化建议

除了针对 LLM Agent 在游戏中的 “异常” 表现讨论热烈，不少网友同时认为单纯让 LLM Agent 当游戏搭子，其实蛮好玩。

《我的世界》大模型AI表现分析及优化建议

而且它也有正常的时候。

比如让它扮演 “黄金矿工”，专注于挖金子：

我们有一个房子，有时它会把东西带回房子里的箱子。出于某种原因，它从不使用门，而是每次都砸碎窗户进出房子。它也从未在墙上打洞，总是破坏窗户。也许这是最短的行动路径。每当我去房子时，都能从破碎的窗户判断出 Sonnet 是否到过那里。

扮演 “保镖”，保护人类玩家安全：

我们要求它保护其他玩家。然后事情变得非常可怕。它每几秒钟就在不同玩家之间传送，扫描周围的威胁，并在发现威胁时消灭它们。尽管这很有效，但也让人不安。我从未被怪物威胁到，因为 Sonnet 会立刻注意到它们并在几秒内消灭它们。

《我的世界》大模型AI表现分析及优化建议

你想要一个这样的游戏搭子吗？

《我的世界》大模型AI表现分析及优化建议

参考链接：
[1]x.com/adonis_sing…
[2]x.com/adonis_sing…
[3]x.com/voooooogel/…
[4]x.com/repligate/s…
代码：github.com/kolbytn/min…

— 完 —

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

《我的世界》大模型AI表现分析及优化建议

“LLM 是对齐的，LLM Agent 未必对齐”

AI大模型fine-tuning实践记录 | 云环境 vs 本地环境 | Python环境折腾

Web Speech API：语音识别和语音合成功能详解

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

StoryDiffusion

归档

{{userData.name}}已认证

“LLM 是对齐的，LLM Agent 未必对齐”

AI大模型fine-tuning实践记录 | 云环境 vs 本地环境 | Python环境折腾

Web Speech API：语音识别和语音合成功能详解

GPT原理与使用技巧

如何选择ChatGPT API方式？比较ChatGPT API和ChatGPT Unofficial ProxyAPI

Meta发布Llama 2开源大动作，AI领域再次掀起风暴

DALL ・ E 3：集成ChatGPT的新特点和生成效果