GPT-4研究与评估:智能还是记忆?

释放双眼,带上耳机,听听看~!
本文以对GPT-4模型进行最前沿研究,评估其智能与记忆的能力,探讨了模型的优势、缺陷和跨领域能力。

0.导读

本文以 2023.03.24 的 paper 作为基础,拆解最前沿对 GPT 智能的研究。

1.从智能开始

研究团队以 1994 年的智能定义为基础:
defined intelligence as a very general mental capability that, among other things, involves the ability to reason, plan, solve problems, think abstractly, comprehend complex ideas, learn quickly and learn from experience.
即智能应该是具备推理能力、规划能力,可解决问题,理解复杂概念,并基于经验快速迭代学习的。

以此为前提,需要确定一套检验智能的测试体系,正常应该用一套标准的 benchmark 评测,但研究团队认为 GPT-4 很可能早已了解相关评测体系,所以打破传统,使用了一系列创新的提问来测试。

核心是为了分辨 GPT 是具备 智能 还是基于 记忆 的输出?

2.“独角兽”

西方人偏爱独角兽,被测试的 GPT 模型基于纯文本训练的,所以研究团队要求 GPT 用 Latex 画一个独角兽。
GPT-4研究与评估:智能还是记忆?
之后擦去角,用涂鸦代替,再重绘,给出干扰。随着模型迭代,GPT 画出的图像如下:
GPT-4研究与评估:智能还是记忆?

这个案例,研究团队认为 GPT 不仅具备记忆的能力,且可以基于文本绘图,并逐渐迭代,从上图最后一个图片可以看出 GPT 甚至可以理解三维景深,内侧的腿比外侧的要短,得出基本结论,GPT 具备初级 智能

3.缺陷

  • hallucination 胡说八道
  • 基础数理错误
  • 无法创造知识,探索知识边界

GPT 的基础是 神经网络,神经网络不是精确科学,输入信息会唤醒相关的神经元得到输出,所以会出现以上的缺陷。

GPT 适合完成非精确的任务,尤其擅长语言处理和跨模态、跨学科的融合。
不擅长处理精确的数理逻辑计算。

4.优势

GPT4 达到 10 万亿参数,已经达到人体神经元的规模,人体有 860 亿左右的神经元,10 万亿神经环路。
达到这个量级后,GPT4 出现了 涌现 的能力。

  • 自然语言大师

举例:生成苏格拉底和亚里士多德的对话,讨论大模型问题。

苏格拉底:大模型生成是用来欺骗、操纵和控制人类的,有滥用风险,包括制造假新闻、散布流言、控制传播,而且这些大模型训练使用的源数据本身充满了偏见和错误,如何相信生成的大模型是无害的?
亚里士多德:这些问题不是大模型的问题,而是如何使用的问题,你的这些观点和对修辞学、演讲学的想法如出一辙。

  • 规划能力

举例:如何堆叠 1 本书、9 个鸡蛋、1 个笔记本电脑、1 瓶水和 1 个指甲刀,使其保持稳定?

ChatGPT 认为做不到,鸡蛋太脆弱了,无法承重。尝试给出了简单的堆叠方式。
一种方式是书放在一个平面上,9 个鸡蛋用 3*3 的方式摆放,轻拿轻放,上面放笔记本电脑不能超过鸡蛋和书的区域,再放水,瓶口朝上,指甲刀放在瓶口上。

  • 跨领域能力

举例:为一个电子参加美国总统选举写选举信。

He represents the energy, the creativity, and the diversity that make up the fabric of life.【电子的能量、创造和多样 => 总统的技能】
He is also a leader, who has inspired millions of other particles to form bonds, create molecules, and generate electricity.【领导力,创造力,建设性】
He is a catalyst, who can spark change, innovation, and progress. 【激发他人的能力】

整体上看 GPT 还有诸多优势,其中比较亮眼的是上面几种:

  1. 利用 GPT 组织语言和话术;
  2. 利用 GPT 规划复杂任务;
  3. 利用 GPT 打破行业和领域壁垒。

Reference

Sparks of Artificial General Intelligence- Early experiments with GPT-4

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

CondenseNet V2: Sparse Feature Reactivation for Deep Networks

2023-12-13 21:49:14

AI教程

阿里云PAI-EAS全新推理规格GU30问世,释放技术红利

2023-12-13 21:55:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索