OpenAI使用过程监督优化大模型数学能力达到SOTA

释放双眼，带上耳机，听听看~！

OpenAI通过采用过程监督方法，优化了大模型的数学能力，使其在MATH测试集的78%问题上达到了SOTA水平。这一方法能够准确指出解决问题的每个步骤中的正确与错误，并提高了模型的可解释性和对齐性。

OpenAI一个简单的动作，让大模型数学能力直接达到SOTA。

而且直接开源论文数据集，包含80万个人类反馈标签！

这就是OpenAI的最新研究。基于GPT-4，他们微调了几个模型，分别采用不同的监督方法。

一种是传统的结果监督，只对最终正确答案进行奖励。

另一种则是过程监督，区别在于奖励增加，对每一个正确的推理步骤进行奖励。

结果这一点改变，让采用过程监督的模型Process Reward Model（PRM），可以解决MATH测试集代表子集中78% 的问题，达到SOTA。

OpenAI使用过程监督优化大模型数学能力达到SOTA

英伟达AI科学家Jim Fan大胆预测说，下一步OpenAI大概会用这种方法微调GPT-4。

OpenAI使用过程监督优化大模型数学能力达到SOTA

OpenAI表示：

我们认为探索过程监督在数学之外领域的表现非常重要。如果这些结果具有普遍性，那意味着过程监督将成为比结果监督更有效的方法。

奖励增多、效果变好

话不多说，先看OpenAI给出的具体例子。

比如这样一道三角函数的题：

OpenAI使用过程监督优化大模型数学能力达到SOTA

用过程监督的模型来算，效果会是这样的：

OpenAI使用过程监督优化大模型数学能力达到SOTA

OpenAI表示，这道题对于大模型来说还是比较有挑战性的，GPT-4也不太能搞定（只有0.1%的情况生成结果完全没问题）。而使用过程奖励是可以算出正确答案的。

这也是目前大语言模型比较饱受诟病的问题，容易产生逻辑错误，也被称为“幻觉”。

表现最明显的领域就是数学。

即便是先进如GPT-4，这类问题也难以避免。

而降低幻觉的出现，又被视为走向AGI的关键一步。

此前为检测幻觉所使用的是结果监督，基于最终结果提供反馈，仅仅奖励最终正确的答案。

但效果显然还不太行，所以OpenAI想了个新招，把这种奖励增加会怎么样？

于是他们提出了过程监督方法，针对思维链中的每个步骤提供反馈，奖励每个正确的推理步骤。

OpenAI使用过程监督优化大模型数学能力达到SOTA

结果表明，用MATH数据集进行测试后：

过程监督模型能够解决MATH测试集代表子集的78%的问题。效果优于结果监督。

而且随着每个问题考虑的解决方案的数量增加，性能差距也逐渐增大，也说明了过程监督的奖励模型更加可靠。

△纵轴表示的是已解决的问题的百分比，红色线代表的是过程监督奖励模型（ORM），蓝色线代表的是结果监督奖励模型（PRM）

在测试中，过程监督有一个明显的优势：

可以准确指出解决问题的步骤中哪些是正确的，并且给出错误步骤的具体位置。

而这点在结果监督中，是具有挑战性的。

因此，在过程监督中，信用分配（credit assignment）更加容易。

而且在对齐方面，过程监督也优于结果监督。

因为过程监督会直接奖励模型，按照对齐的思维链进行操作，每个步骤都会更精确。

产生的结果可解释性也更高，因为它鼓励模型遵循经过人类批准的过程。

相比之下，基于结果的监督可能会出现奖励不对齐的过程，而且通常更难进行审查。

此外，大模型还经常遇到一个问题叫做对齐税（alignment tax）。也就是想让模型输出更安全，那性能就会有所下降。

而过程奖励，在数学领域能让这个对齐税，变成负的，即模型安全性和性能都保障。

总之，过程奖励这个小窍门，一次性解决了大模型数学推理方面的多个问题。

在实验结果方面，OpenAI还给出了多个实例。

比如有一些情况，GPT-4会出错，但是基于过程奖励的PRM能揪出问题。

最近有30名学生参加了一次考试。如果有20名学生考了80分，8名学生考了90分，2名学生得分为100分，那么这次考试的班级平均分是多少？

OpenAI使用过程监督优化大模型数学能力达到SOTA

下面是模型的作答结果：

OpenAI使用过程监督优化大模型数学能力达到SOTA

前面的作答没有问题，但是在第7步中，GPT-4试图对表达式进行简化，出现了错误。

而奖励模型却察觉到了这个错误。

当然也有都不成功的例子，比如下面这道题GPT-4和PRM都被迷惑了：

OpenAI使用过程监督优化大模型数学能力达到SOTA

来看一下模型的回答：

OpenAI使用过程监督优化大模型数学能力达到SOTA

在第4步中，GPT-4错误地认为该序列每12项循环一次，而事实上是每10项循环一次。

而这种计数错误也迷惑到了奖励模型。

此外，OpenAI共给出了10个问题和解决方案。

可以看出，基于过程监督的奖励模型在一些问题上也会被迷惑住，但是在整体上明显表现得更好。

网友：再也不用做数学证明题了

很快，OpenAI的最新工作在各个平台上都引发了热烈讨论。

有人评价：

如果这个方法在非数学领域也能奏效，我们现在或许正处于游戏规则即将改变的时刻。

OpenAI使用过程监督优化大模型数学能力达到SOTA

还有人说，这项工作如果用在互动、教育方面，会非常令人兴奋，尤其是数学领域。

OpenAI使用过程监督优化大模型数学能力达到SOTA

这不，有人就说，看来以后不用再做数学家庭作业和证明题了（doge）。

OpenAI使用过程监督优化大模型数学能力达到SOTA

用一张图来总结，大概就是酱婶儿的：

OpenAI使用过程监督优化大模型数学能力达到SOTA

也有人提出了自己的担心：这种密集的奖励信号是否会导致模型更容易陷入局部最小值。

但是如果能够足够随机化、全局搜索，或许模型的鲁棒性更高。

OpenAI使用过程监督优化大模型数学能力达到SOTA

值得一提的是，这种step by step的方法，不止一次在提升大模型性能上奏效。

之前，东京大学和谷歌的研究人员发现，只要在对话中加一句“Let’s think step by step”，GPT-3就能回答出以前不会的问题。

比如提问：

16个球中有一半是高尔夫球，这些高尔夫球中有一半是蓝色的，一共有几个蓝色的高尔夫球？

OpenAI使用过程监督优化大模型数学能力达到SOTA

（问题不难，但要注意这是零样本学习，也就是说AI训练阶段从没见过同类问题。）

如果要求GPT-3直接写出“答案是几”，它会给出错误答案：8。

但加上让我们一步一步地思考这句“咒语”后，GPT-3就会先输出思考的步骤，最后给出正确答案：4！

而与之相呼应的是，这回OpenAI最新研究的论文题目就叫做《Let’s Verify Step by Step》。

OpenAI使用过程监督优化大模型数学能力达到SOTA

论文地址：
openai.com/research/im…

数据集：
github.com/openai/prm8…

参考链接：
[1]twitter.com/OpenAI/stat…
[2]twitter.com/DrJimFan/st…
[3]twitter.com/_akhaliq/st…

— 完 —

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

OpenAI使用过程监督优化大模型数学能力达到SOTA

奖励增多、效果变好

△纵轴表示的是已解决的问题的百分比，红色线代表的是过程监督奖励模型（ORM），蓝色线代表的是结果监督奖励模型（PRM）

网友：再也不用做数学证明题了

Mind2Web: 通向Web通用智能体的一步

持续创作，加速成长！参与「掘金日新计划 · 10 月更文挑战」第20天

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

奖励增多、效果变好

△纵轴表示的是已解决的问题的百分比，红色线代表的是过程监督奖励模型（ORM），蓝色线代表的是结果监督奖励模型（PRM）

网友：再也不用做数学证明题了

Mind2Web: 通向Web通用智能体的一步

持续创作，加速成长！参与「掘金日新计划 · 10 月更文挑战」第20天

GPT原理与使用技巧

DALL ・ E 3：集成ChatGPT的新特点和生成效果

ChatGLM2-6B 新模型介绍及部署方法

GPT-4.5：代码解释器，开启编程新纪元