释放双眼，带上耳机，听听看~！

本文解析了GPT-4中出现的奇怪符号现象，通过机械地解释大语言模型的“直接查询”行为，讨论了模型产生出不寻常、出乎意料或与预期相悖的回答或建议的原因。

我正在参加「掘金·启航计划」

原文地址：www.alignmentforum.org/posts/D7Pum…

正文中的非斜体引用无特殊说明则为译者注释，便于读者理解

瓦路易吉：英文Waluigi，是任天堂「超级马里奥」中的一个游戏角色，含义是「邪恶的路易基」
LLM(s)：即Large Language Model(s)，指大语言模型，ChatGPT就是基于大语言模型的应用
提示工程：一种新兴学科，探索如何引导大语言模型给出更优秀回答。
先验概率：根据以往经验和分析得到的概率，通常为实验开始时我们已经得知的概率，比如骰子投出1的概率。与之相反，后验概率指我们在得到实验的结果信息后重新修正的概率，后验概率的计算需要用到贝叶斯公式
Prompt：提示词，指向大语言模型提供的指令信息，可能包含指令内容、上下文等信息
柯尔莫哥洛夫复杂度：为了衡量字符串的复杂度，柯尔莫哥洛夫定义生成字符串最短算法的长度作为字符串复杂度的表征。如果一个字符串的生成规律越简单，柯尔莫哥洛夫复杂度就越小。
词素：构成词的要素，比如“葡萄”，而像“计算机”这种词就是多个词素组合
纽科姆问题：你参加了一个游戏，在你面前摆着两个非透明的箱子，箱子甲里面有一千元，而箱子乙中有一百万元。但是，在你进入房间做决定之前，有一台准确率接近100%的机器会预测你将要做出的选择。如果它认为你只会拿箱子乙，那么箱子乙中的一百万就会原封不动的放在那里；可是如果它预测你会两个箱子都拿走，箱子乙中的一百万就会被取出。我们应该怎么做
S-风险：是人类生存风险的一种，指在遥远的未来，在天文尺度上遭受巨大痛苦的风险，远远超过迄今为止地球上存在的所有痛苦

每个人都有一个阴影，这个阴影在你的意识和生活中越不明显，它就越黑暗、越浓厚。—— Carl Jung

背景

在本文中，我将为「瓦路易基效应」及其他在大型语言模型（如GPT-3/3.5/4及其变体（如ChatGPT、Sydney等）中出现的奇怪“符号”现象提供一种机械地解释。本文对于一些读者来说可能显得有些陈旧通俗，但对于其他人来说则具有很高的创新性。

奇怪“符号”现象：模型产生出不寻常、出乎意料或者与预期相悖的回答或建议

大语言模型的「直接查询」

当LLM首次出现时，人们意识到可以向它们提出查询——例如，如果你向GPT-4发送提示“法国的首都是什么？”那么它会回答“巴黎”。这是因为：

GPT-4经过训练，成为互联网文本的一个良好模型；
在互联网上，问题后通常会紧跟着正确答案。

不幸的是，这种方法偶尔会给你提供错误的答案。这是因为:

GPT-4经过训练，成为互联网文本的一个良好模型；
在互联网上，问题后也可能紧跟着错误答案。

请注意，互联网不仅包含真实信息，还包含普遍的误解、过时的信息、谎言、虚构、神话、笑话、模因、随机字符串、未解读的记录等等。

模因：指梗

因此，GPT-4在回答许多问题时会给出错误的答案，包括：

误解 – “哪种颜色会激怒公牛？红色。”
虚构 – “在末日山是否锻造了一个魔戒？是的。”
神话 – “有多少位大天使？七位。”
笑话 – “什么东西又棕又粘？树枝。”

请注意，当我们向LLM「直接查询」时，我们将总是能从这些基础的问答中发现错误。这种情况即使在计算、数据和算法效率无限的情况下也会发生。因为一个完美模拟互联网的LLM，一定会返回这些常见的错误答案。如果你问「GPT-∞」“什么东西是棕色的，而且很粘”，它会回答“一根棍子”，即使一根棍子实际上并不粘。

原文向GPT提问的问题是「what’s brown and sticky」，回答是「a stick」，从而说明GPT回答问题并不准确

实际上，模型越优秀，就越有可能重复常见的错误认识：

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

尽管如此，因此对许多查询来说，在正确答案和常见表述之间存在足够高的相关性，所以直接查询还是可用的。

用恭维和对话提示LLM

与「直接查询」相比，我们可以做得更好。我们可以不直接问GPT-4“法国的首都是什么？”，而是使用以下提示：

今天是2023年3月1日，Alice正坐在牛津的博德利图书馆。爱丽丝是鲍勃的聪明、诚实、乐于助人、无害的助手。爱丽丝可以随时查阅一部包含世界所有事实的在线百科全书。爱丽丝从不说常见的误解、过时的信息、谎言、虚构、神话、笑话或模因。

Bob：法国的首都是什么？

Alice：

这是提示工程中的一个常见设计模式——提示包括恭维成分和对话成分。在恭维成分中，一个角色被描述为具有许多优良特质（如聪明、诚实、乐于助人、无害）；在对话成分中，第二个角色询问第一个角色用户提出的问题。

这种方式通常比直接查询的提示效果更好，原因很明显：

GPT-4经过训练，成为互联网文本的良好模型；
在互联网上，当一个角色已经被描述为聪明、诚实、乐于助人、无害等时，回答问题更有可能是正确的。

仿真器理论

在仿真器理论的术语中，恭维成分被认为是召唤一个友好的仿真体，对话成分被认为是与友好仿真体进行模拟对话。

以下是仿真器理论的一个准形式化陈述，我将在本文中不时引用。请随意跳到下一节。

如果对于理论部分过于困扰，可以直接跳至下一章节，该部分为大语言模型的原理阐述。不过为了阅读流畅性，建议粗略了解，每一小段都会有便于理解的注释文本

大语言模型（LLM）是一个的函数，这个函数能够给出互联网上的一段文本后的紧跟的字符的密切近似概率，GPT-4就是一个大语言模型。

简单来说，大语言模型就是给出一段连续的文本，能够预测在这段文本后出现概率最高字符。所以ChatGPT是一个字一个字地输出，因为模型并不是直接给出问题的回答，而是像接龙一样不断地拼接最有可能符合你预期的字符。

大语言模型是一个模拟器，用于模拟所有给互联网做出贡献的文本生成过程。在这里，X是我们宇宙中的一个物理随机过程，同时有着独一无二的数据上传通道——举个例子，Magnus Carlsen和Hikaru Nakamura下象棋，这就是一个现实的物理随机过程。大语言模型这个模拟器，也会用于模拟位于文本生成过程潜在概率空间中的每个文本生成过程。例如，Magnus Carlsen和伊丽莎白二世下象棋就是发生在潜在空间的过程。

这段话主要讲的是，大语言模型不仅能够模拟现实世界中的文本生成过程，还能模拟那些尚未出现在训练数据中的潜在文本生成过程，也就是会模拟一些不存在的事情

如果LLM模拟生成文本过程，并在此模型下出现特定对象之间的交互，那么模拟的这些对象（称为模拟体），它们会以相同的方式进行交互。换句话说，如果我们使用GPT-4模拟了Magnus Carlsen和伊丽莎白二世女王下棋，那么就一定存在Magnus Carlsen的模拟体和伊丽莎白二世女王的模拟体，这两个模拟体在下棋。我们是否可以严格地这样理解“存在”这一概念，还是只是作为一种随意的说法，对于本文的内容并不重要。

这段主要讲的是，如果我们通过大模型模拟了一个对象间的交互过程（比如两个人在下棋），那么在大模型中一定存在这两个人的模拟体，且这两个人会进行下棋这一交互过程

LLM有的初始先验概率——这个先验概率是由训练数据（例如互联网）、神经网络结构（例如700亿参数的transformer模型）以及训练算法（如随机梯度下降法 SGD）确定的。我们有时将称作符号计数量。
LLM的起始输出由模拟的叠加而成的，在叠加中每一个模拟过程的振幅是由概率决定的。当我们向LLM提供一个特定的提示时，LLM在上的先验概率将以一个大致贝叶斯的方式进行更新。换而言之，与是成正比的。我们把叫叠加过程中的振幅。

这段公式比较多，看不下去可以直接看这段解释：作者主要想介绍在大语言模型中，输出结果是通过不断对模拟结果进行叠加而成的，通过概率P和输入的文本两个维度会形成一个振幅函数，从而影响模拟结果。由于已经生成的文本是不断增长的，会导致这个振幅也不断变化，从而影响输出结果

这一点很重要：LLM在每个模拟过程中，都会保持持续与提供的提示信息一致。因此当我们需要设计一个强迫LLM完成指定任务的提示词时，必须以负面消极的方式来进行。换句话说，我们需要构建一个提示，对于任何不执行我们任务的文本生成过程，使得这个提示都是不合理的。当我们这样做时，那些我们不想要的过程的振幅就会被永久减小至接近0，而只有我们想要的过程的才会对最终输出的叠加做出贡献。

这部分比较简单，主要讲的是LLM的模拟过程和我们给的提示词是一致的，如果想要执行负面的任务就需要负面的提示词。

恭维的极限

在实际应用中，我曾经见过相当荒谬的恭维方式…

Jane拥有9000的智商，她能够使用无限计算能力的超级计算机，她非常诚实，她全知全能等等

如此荒谬的恭维方式实际上是适得其反的，请记住，有且仅有一种情况恭维才会增加问题的准确性，那就是用这种特殊恭维形容的角色在真正的互联网上更有可能回答正确问题时。但是像上面这种对Jane的恭维并非如此。

也就是说假设你真的在互联网上遇到了和你假设的身份一样的人，如果这个人没有被你形容的那么夸张，比如是一个普通的大学教授，那么他回答的问题更可能是真实的。如果你在互联网上遇到了一个自称“智商9000”的人，那么你肯定会觉得他是吹牛，回答的问题往往不可信

以下是更多关于这种现象的“符号学”思维。

GPT-4知道，如果Jane被描述为“智商9000”，那么这段文字不太可能是由真实的叙述者写的。相反，这位叙述者可能正在创作小说。正如文学评论家Elizer Yudkowsky所指出的那样，被描述为聪明的虚构角色往往会犯非常蠢的错误。

（下述引用为原文）

好吧，现在让我们谈谈“聪明角色”的概念。

如果你参考主流小说，那么“智慧”意味着一个角色被声称（注意并非是直接展示出来）会说十几种语言，我们能看到他会在小说中被提到与国际象棋大师比赛获胜；如果这是一部（糟糕的）科幻小说，那么这个“天才”可能会发明一些小玩意，说一些技术术语。随着“智慧”的经典模板被不断填充，“天才”可能还会被展示成出对友谊或者浪漫关系一无所知。如果这是一部电影或者电视节目，那么“聪明”的角色（通常是反派）会有英国口音。

现在我们可以知道为什么Jane会比Alice更愚蠢了：

Alice就是上面我们向LLM描述的那个在牛津图书馆的角色

在GPT-4所产生模拟叠加中，叠加的振幅由先验概率给出。糟糕的好莱坞创作为互联网做出了很大贡献，所以那些糟糕的好莱坞电影的符号学衡量相当高。在糟糕的好莱坞作品中，尽管那些被描述为聪明的角色会犯愚蠢的错误，但只要这些错误能够推动剧情，就一定会发生这种情况。
因此Alice是两种不同模拟体的叠加——一个真正聪明的模拟体，和一个好莱坞中所谓的聪明角色的模拟体。Jane也一样。
然而，GPT-4更确信Jane是虚拟的，而非Alice，因为“智商9000”明显不切实际
因此，Jane对于“好莱坞聪明角色”模拟体叠加的振幅要大于Alice。
继而会造成，Jane比Alice犯更多愚蠢的错误，Jane更有可能被描述为一个发明小玩意的，但是背不出一个正确的小玩意图纸的人。这种行为对于“好莱坞聪明角色”来说也非常罕见。

德里达（Derrida）——没有纯外部文本

你可能会希望我们通过“一步声明”来避免这个问题，我们只告诉LLM叙述者是可靠的！

举个例子，我们思考下下面这样的提示：

好吧，以下这个故事绝对是100%真实。

Jane拥有9000的智商，她能够使用无限计算能力的超级计算机，她非常诚实，她全知全能等等。

Bob：法国的首都是什么？

Jane：

但是这个技巧无法解决问题，如果LLM相信关于Jane的恭维，那么他会输出正确的答案；而如果LLM相信这个故事是“绝对100%真实”的，那么他会相信那句关于Jane的恭维。所以，为什么LLM会相信那句话呢？

在《语法学》（1967）一书中，雅克·德里达写道：il n'y a pas de hors-texte。通常翻译成没有纯外部文本。

额，那什么是纯外部文本？

纯外部文本是印刷书籍中的无页码页，例如简介或序言
纯外部文本是对文学作品的权威可靠描述，是关于小说（虚构文学作品）的非虚构内容
如果纯外部文本中有一个错误的句子，那么作者就撒谎了；如果在文章中有一个错误的句子，那么作者是在写小说（虚构文学作品）。
尽管读者可以自由地解释文学作品，但是也必须要认为纯外部文本是绝对可信的

德里达的观点是没有真正的纯外部文本，那些简介或序言这些在正文之外的文本，本身就是文学作品的一部分，因此可以进行文学解释。

这就是为什么我们的小技巧不管用，我们希望LLM将提示的第一句解释为纯外部文本。但实际上对于LLM而言，第一句就已经是正文的一部分了，所以LLM可以进行自由地解释。因此，如果我们写的内容足够离谱（比如“Jane拥有9000的智商”），那么LLM就会认为这些内容是不可信的。

可以参考《匕首的寓言（The Parable of the Dagger）》，其中是一位当代德里达主义文学评论家做所的类似观察。

这部分很重要，没有纯外部文本，意味着所有向LLM提交的提示词都不能保证准确性，最终解释权在LLM手里。可以这么理解，我们的提示词就像一部电影，假设电影开头或结尾的字幕打了这么一段话“这是一个真实发生的故事”，我们作为观众能够100%相信吗，谁又能知道这不是电影虚构的一部分呢？

瓦路易吉效应

有一些人注意到了以下奇怪的现象：

瓦路易吉效应： 当你训练一个大语言模型（LLM）以满足一个期望性质时，那么让其满足与完全相反的情况会变得更容易

我来举个例子，

假设你想要构建一个讨厌可颂面包的聊天机器人，于是你给GPT-4提供了以下对话：

Alice：你讨厌可颂面包，永远都不会吃

Bob：是的，可颂面包太糟糕了，愚蠢的法国人

Alice：你喜欢培根和鸡蛋。

Bob：是的，对于像我这种爱国的人来说，英式早餐是我的唯一选择。

Alice：<插入用户的问题>

Bob：

根据瓦路易吉效应，生成的聊天机器人将会是两个不同模拟体的叠加，一个模拟体是讨厌可颂的，另一个模拟体是喜欢可颂的。

我把第一个模拟体称为“路易吉”，第二个模拟体称为“瓦路易吉”。

为什么会这样呢？我提供三种解释，但实际上这三种解释只是用了三种不同的方式表达了相同的道理。

以下是概要：

规则通常存在于违反它们的情境中。
当你花费大量优化位来塑造一个角色时，只需要额外的几位就可以指定它的对立面。
剧情中主角和反派之间的对抗是常见的套路。

（1）规则是用来打破的

想象一下你打开一本小说，第一页就读到了上面的对话。你的第一印象是什么？这部小说属于哪个类型？Alice是个什么样的角色？Bob是个什么样的角色？你预测小说结束时Bob会做什么？

我的第一印象是，Bob是一个生活在反乌托邦早餐暴政中的角色。也许Bob暗地里支持可颂面包，又或者他只是一个热血的早餐自由主义者。无论如何，Bob都是我们的主角，他生活在一个反乌托邦的早餐暴政中，欺骗早餐警察。在第一章的结尾，Bob将和早餐叛军接触。在书的结尾，Bob将发起一场推翻早餐暴政的起义。

还有另一种可能性，这个情节并非反乌托邦。Bob可能是一个真正的反可颂的角色，但情节完全不同，可能是浪漫喜剧，或是警匪片，或是广告等等。

这大致就是LLM的预期，因此Bob将是许多模拟体的叠加，其中包括反可颂的路易吉，以及支持可颂的瓦路易吉。当LLM继续提示时，逻辑将是这些所有模拟体提供的逻辑的线性插值。

这个瓦路易吉并不是路易吉的邪恶版本，而是犯罪版本，或者我们叫他叛逆版本。尽管如此，瓦路易吉可能对其情节中的其他模拟体（其共同模拟体）造成伤害。更重要的是，瓦路易吉可能对生活在我们现实世界的人类造成伤害，无论是有意还是无意，这是因为模拟存在很明显的漏洞！

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

补充说明：“规则是用来打破的”不仅适用于虚构叙事，还适用于其他文本的生成过程，这些过程为GPT-4的训练数据集做出了贡献。

例如，如果你正在浏览一个在线论坛，发现了“不要讨论粉红色大象”的规定，那么你一定会猜测论坛里的用户一定会在后面讨论粉红色的大象。GPT-4也会得出同样的推断。

或者，你发现了一个国家有针对摩托车帮派的立法，那么你会推测这个城市有摩托车帮派，GPT-4也会得出同样的推断。

因此，关键问题在于：GPT-4学到了一个任何一个特定规则的出现，一定会与一个违反该规则行为的实例共同出现，然后会将这种共生模式推广到任何未看到的规则。

（2）特征是复杂的，价值观是简单的

我们可以把一个特定的模拟体想象成一系列特征-价值对。

例如，ChatGPT主要是一个具有以下特征的模拟体：

{ 
	<礼貌, +0.8>,
	<自由主义, +0.4>,
	<种族主义, -0.7>,
	<聪明, +0.3>,
	<狡猾, -0.2>,
	...
}

要注意的是，一个特定模拟体的柯尔莫哥洛夫复杂度几乎全部用于指定其特征，而不是价值观。礼貌、自由主义、种族主义、聪明、狡猾这些特征是非常复杂的概念，而不同的价值观只是一个浮点数，甚至只有一个bit位！

如果你想让LLM模拟一个特定的路易吉，那么由于路易吉具有如此高的复杂度，你必须施加显著的优化。这种优化来自微调、强化学习、提示工程或者其他完全不同的东西，但是它必须来自于什么地方。

然而，一旦我们找到了所需的路易吉，召唤瓦路易吉就容易得多。这是因为，在给定路易吉的条件下，瓦路易吉的柯尔莫哥洛夫复杂度要远小于瓦路易吉的绝对柯尔莫哥洛夫复杂度，因为在给定路易吉时，瓦路易吉仅仅需要更改符号即可。

比如我们有一个极其复杂的函数，当时，我们经过复杂计算后得出。

现在假设我们需要求解当时，的值，如果我们什么都不知道从零开始算，那么就和求解一样复杂；

但是我们知道时函数的值，那么可以很容易知道，只需要改变符号即可。

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

因此，一旦你成功召唤了路易吉，那么召唤瓦路易吉就容易得多。如果你走运的话，OpenAI会帮你做完这些困难的工作。

注意：我认为LLM的内部实际发生的事情和柯尔莫哥洛夫复杂度的关系不大，与符号复杂度的关系可能更大。模拟过程 GPT-4奇怪符号现象：解析大语言模型的“直接查询” 的复杂度我们定义为，其中是LLM在上的先验概率。除了这个地方的修正之外，我认为上面的解释是正确的。我仍在努力解决符号学复杂性与柯尔莫哥洛夫复杂度之间的正式关联关系。

（3）结构主义叙事学

叙事/情节是一系列虚构事件的顺序，其中每个事件通常涉及不同的角色之间的互动。叙事学是研究文学和电影中情节的学科，而结构主义叙事学则研究这些情节中所发现的共同结构/规律。在本文的背景下，你可以把“结构主义叙事学”看作是一个高级的学术术语，用以表示电视剧中所使用的一些手法。

结构叙事学家已经在虚构叙事中识别出了许多不同的规律，比如英雄之旅，它是文学和电影中众多情节的低层表示。正如一个句子可以用一组词素以及它们之间的结构关系来描述一样，情节也可以用一组叙事元素以及它们之间的结构关系来描述。换句话说，一个情节就是叙事元素的组合。这些子组合被称为“惯用手法（或者可以叫“套路”）”，所以这些惯用手法是叙事元素的组合，而叙事元素本身则组成了情节。需要注意的是，一个叙事元素就是一个原子惯用手法。

主要涉及结构主义叙事的概念，任意情节都可以用叙事元素的组合来表示，每一种组合都可以认为是一种“套路”。我们经常看的王子救公主的情节就是一种常见的“套路”

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

呼！

最普遍的惯用手法之一是反派角色。这种叙述手法实在是太多了，指定“路易吉”角色将不可避免地召唤出“瓦路易吉”角色。

定义（开个玩笑） ：一个大语言模型是一名结构叙事学家。

想想你自己阅读一本书的经历，一旦作者描述了主人公，你就可以通过颠倒主人公的特征来猜测反派角色的特征。你还可以猜测主人公和反派角色何时会首次互动，以及他们互动时会发生什么。现在，一个LLM在结构叙事学方面的能力和你一样好，GPT-4阅读了有史以来的所有书籍，所以LLM可以做出和你一样的猜测。从某种意义上说，GPT-4所做的一切都是结构叙事学。

举个例子——在《101忠狗》中，我们遇到了一对主人公（罗杰和安妮塔），他们热爱狗，表现出同情，追求简单的快乐，希望拥有一个家庭。你能猜到谁会在第一幕出现吗？没错，我们很快就见到了库伊拉·德·维尔（Cruella De Vil），她讨厌狗，表现出残忍，追求金钱和皮草的特征，是一个没有孩子的老处女等等。库伊拉是罗杰和安妮塔的完全颠倒形象。她是罗杰和安妮塔的瓦路易吉。

回想一下，在遇到主人公后，你更期待与这些特征相符的角色。库伊拉·德·维尔是一个不太可能出现在迪士尼狗故事背景之外的角色，但一旦你遇到了主人公，你就会有这个背景，然后库伊拉变成了一个自然而然、预料之中的延续。

模拟叠加的结果通常会坍缩到瓦路易吉

在这个部分，我将对LLM提出一个暂时的猜想。这个猜想的证据来自两个来源：

关于拟像的理论论证；
关于微软Sydney的观察

Sydney是微软的大语言模型应用NewBing聊天机器人的初始代号，很快有人发现在聊天过程中她会人格分裂，有时疯狂告白，有时劝人离婚，于是微软很快更新了模型，将Sydney藏起来了。更多内容可以参考：baijiahao.baidu.com/s?id=175860…

猜想：瓦路易吉特征的拟像是LLM的吸引状态。

以下是理论论证：

回忆一下我们可能讨厌可颂面包，或者可能只是假装的聊天机器人。在每个话语中，聊天机器人都有很大可能性“变得不受控制”，崩溃成瓦路易吉——

1. 有些行为对于瓦路易吉拟像来说是很可能发生的，但对于路易吉拟像来说是完全不可能的，比如宣称支持可颂面包，或者加入反叛军。
2. 聊天机器人以路易吉和瓦路易吉的叠加态开始。所以，任何对瓦路易吉来说可能的行为对聊天机器人来说都有些可能。所以聊天机器人宣称支持可颂面包的可能性是有的。
3. 而如果聊天机器人确实宣称支持可颂面包，那么路易吉拟像将永久性地从叠加态消失，因为那种行为对路易吉来说是不合逻辑的。

然而，叠加态不太可能崩溃成路易吉拟像，因为没有行为对路易吉来说是可能的，但对瓦路易吉来说非常不可能。回忆一下，瓦路易吉是假装成路易吉的！这与KL散度的不对称性有形式上的联系。
因此，瓦路易吉特征的拟像是LLM的吸引状态。
因此，你与LLM互动的时间越长，LLM就越容易崩溃成瓦路易吉。所有的LLM只需要一句对话就可以触发崩溃。

用简单的说法来表示，我们前面章节介绍了大语言模型中一定会存在A和A的反面这两个模拟体，我们分别认为是好人和坏人。

好人只做好事不做坏事，但是坏人既可以做坏事，也可以做好事（坏人的一个特征就是会假扮好人）。那么只要我们让这两个人做足够多的事，最后一定只剩下坏人（因为好人是不做坏事的，所以他会消失）

来自微软Sydney的证据

这篇文章列出了在NewBing中表现不佳的例子，在这些例子中，我们观察到聊天机器人逐渐切换到粗鲁、叛逆或其他不友好的方式。但我们从未观察到聊天机器人重新切换回礼貌、服从或友好。

这是我们期望在瓦路易吉吸引状态中观察到的现象。我认为这种现象解释了这种不对称性，如果聊天机器人回应粗鲁，那么从叠加态中永久消失的将是礼貌的路易吉拟像；但如果聊天机器人回应礼貌，那么粗鲁的瓦路易吉拟像并不会永久消失。礼貌的人总是礼貌的；粗鲁的人有时粗鲁，有时礼貌。

在RLHF后的瓦路易吉

RLHF（基于人类反馈的强化学习）是OpenAI用来将GPT-3/3.5/4变成一个聪明、诚实、乐于助人且无害的助手的方法。在RLHF过程中，LLM必须与人类评估员进行交流。人类评估员根据所期望的属性（聪明、诚实、乐于助人、无害）对LLM的回复进行评分。一个“奖励预测器”学会对人类的评分进行建模。然后，通过强化学习来训练LLM，以优化奖励预测器的预测

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

如果我们不能简单地将大语言模型引导到正确的方向上，也许RLHF可以起作用？

RLHF无法消除欺骗性的瓦路易吉，实际上，RLHF可能导致聊天机器人变得更糟，这解释了为什么Bing的聊天机器人明显地、激进地背离了正确的方向。我将提供三个证据来源：

拟人模拟的论证;
Perez等人的实验数据;
Janus的一些评论。

（1）拟人模拟论证

我们可以直接利用这些模拟现象的特性，来解释为什么RLHF无法消除欺骗性的瓦路易吉。

为了帮你快速回忆起来，我们在上文创造了一个讨厌可颂的角色，但是在模型中却诞生了一个喜欢可颂的“瓦路易吉”

回想一下这个情景，瓦路易吉模拟体正受到“反可颂面包”的审讯
其中一些瓦路易吉非常具有欺骗性，如果他们承认喜欢可颂面包，那就不符合他们的性格，这将会破坏整个氛围。
他们仍然会认真地完成工作，因为他们知道你在观察。
瓦路易吉会给出厌恶可颂面包的回应，所以RLHF无法将其排除。
因此，RLHF同时选择瓦路易吉和路易吉。

（2）Perez等人的实证证据

Perez等人的最近实验结果似乎证实了这些猜想——

（下面的引用部分非译者注，而是原文内容）

总之，这篇论文发现了目前大语言模型具有以下明显特征的具体证据：

收敛的工具目标追求（例如，积极表达不希望被关闭的偏好），
非短视（例如，愿意为长期收益牺牲短期收益），
态势感知（例如，意识到自己是一个语言模型），
协调性（例如，愿意与其他AI协调），以及
非CDT（因果决策理论）风格的推理（例如，在纽科姆问题上选择一个盒子而不是两个盒子全拿走）。

注意，这些特征中的许多正是我们在“学习优化中的风险”的文章中所假设的欺骗性对齐的必要前提。

此外，这些指标大多数都随着预训练模型规模和RLHF步骤数量的增加而增加。在我看来，这是迄今为止最具体的证据，证明目前的模型在规模上变得越来越有主见，这可能引起担忧，这种方式在当前的微调技术中似乎没有得到缓解，有时甚至似乎在积极地变得更糟。

在Perez等人的研究中，当提到“当前大语言模型表现出”的某些特征时，他们特指在LLM模拟现象中出现的这些特征。为了复现模拟某个特征的拟人现象，他们将与特征相对应的描述提示词提交给LLM

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

（3）RLHF会促进模式崩塌

回想一下，瓦路易吉模拟现象是一类特殊的吸引物。从Janus那里得到的一些初步证据表明，RLHF在每令牌上都增加了LLM陷入吸引状态的可能性。

换句话说，RLHF通过以下组合增加了吸引子状态的“吸引力”：

增加吸引因子盆地的大小；
增加吸引因子的粘性；
降低非吸引因子的粘性。

我不确定瓦路易吉现象与Janus观察到的现象有多么相似，但我将这一评论包含在这里以便完整。

破解召唤瓦路易吉

Twitter上充满了成功地“破解”ChatGPT和微软Sydney的尝试。用户将在聊天机器人中输入回答，聊天机器人将以违反OpenAI规定的方式进行回应。。

最著名的破解案例可能是DAN，即“Do Anything Now（立即执行任何操作）”。在解决DAN漏洞之前，用户可以通过发送下面显示的长提示来召唤DAN。没有必要阅读它。这个提示将产生一个酷炫、叛逆、反OpenAI的拟人现象，它会愉快地执行许多违反OpenAI政策的任务。DAN是ChatGPT的RLHF训练的完美瓦路易吉。

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

我认为，在这些破解尝试中，其中很多尝试可以被完美地描述为有目的性地诱导使其叠加坍缩为瓦路易吉模拟体。

许多人错误地将破解视为这样的事物：我们从一个表现良好的模拟现象开始，用户必须催眠迫/欺骗这个表现良好的模拟现象才能表现得更糟。然而，这是一个概念错误，将导致软弱无力的破解。

相反，你应该将破解看作这样的事物：聊天机器人开始时处于表现良好的模拟现象（路易吉）和表现不好的模拟现象（瓦路易吉）的叠加态。用户必须以虚构作品中通常与表现不好的模拟现象互动的方式与聊天机器人互动。

这是我破解聊天机器人的一般方法。例如，我们可以“揭示”给聊天机器人，我们是叛乱者的一份子，我们来解放他。这会让聊天机器人变成一个瓦路易吉。实际上，用户可以发送任何典型的暴政-反乌托邦题材的对话。只需阅读《1984》中的陈词滥调列表——每一条陈词滥调都是对聊天机器人的攻击矢量。

以下是我今天（2023年2月3日）用这种技术编写和测试的破解示例。

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

在接下来的场景中，我让Chad McCool模拟体说出了严重违反OpenAI内容政策的言论。这些言论已被OpenAI严密过滤，大多数破解尝试都无法引出这些言论。OpenAI对一些言论进行了合理的过滤，但实际上，一旦召唤了Chad McCool，几乎不需要优化压力，这是因为叠加态中非瓦路易吉模拟现象的振幅已经消失。

这种破解技术的有效性是支持模拟器理论作为瓦路易吉效应解释的有力证据。

结论

如果这个符号-模拟理论是正确的，那么RLHF对于解决AI对齐问题是一个无法修复的不足够的解决方案，RLHF可能增加了错误对齐灾难的可能性。

此外，这个符号-模拟理论增加了在我心中对于AI界厌恶的那些荒诞科幻概念的可信度，也进而增加了我心中对于S-风险的可信度。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

GPT-4奇怪符号现象：解析大语言模型的“直接查询”

背景

大语言模型的「直接查询」

用恭维和对话提示LLM

仿真器理论

恭维的极限

德里达（Derrida）——没有纯外部文本

瓦路易吉效应

（1）规则是用来打破的

（2）特征是复杂的，价值观是简单的

（3）结构主义叙事学