GPT:人工智能时代的新宠

释放双眼,带上耳机,听听看~!
了解GPT模型的发展历程、顿悟现象以及范式转移,探索人工智能时代的新趋势。

0. 导读

GPT 近期密集爆发,作为普通人,我们可以不了解技术的细节,但不能不知道他的前世今生,以及更重要的要学会如何使用这个工具。
G-Generative, P-Pretrained, T-Transformer
G 是通用的,P 是预训练,T 是一种结构,有效规避了 RNN 的传递缺陷和低效问题,能够处理句中的所有词。

1. 历史

  • 2019.02 GPT-2 出现
  • 2020.06 GPT-3 出现
  • 2020.09 GPT-3 + PET(pattern exploiting training) 人工离散模板出现
  • 2022.01 GPT-3 + Chain of thought 推理能力出现,zero-shot 爆炸,出现“顿悟”现象

GPT:人工智能时代的新宠

作者语:
GPT 的代际迭代不是普通版本的更新,目前看能力上往往是天翻地覆的变化;
GPT 的迭代出现了越来越快的趋势,关注越来越多,应用越来越广泛,很可能成为智能时代的 OS,随着 OpenAI 的 API 开放,应用如雨后春笋般涌现,未来很可能会出现 GPT-based 谷歌、微信、淘宝、抖音们。

2. “顿悟”

英文是 Emergence,是当下 GPT 领域最前沿相对热点的研究课题。
顿悟是指,当模型参数超过千亿,出现的小样本学习 few-shot、复杂推理 complex reasoning、泛化 AGI 和思维链推理能力 chain of thought

作者语:
GPT 在大量场景的表现越来越接近甚至超越人类对应领域的专家能力。
这样的变化是在参数和数据量达到一定规模后突然出现的,由于 GPT 的“黑盒”不可预测性,这种涌现的能力成为了当下诸多前沿科学家研究的焦点。
一方面希望这样的涌现能力可以帮助我们解决很多预期之外的问题,另一方面希望能够了解涌现的特点,尤其是边界,为安全防范做好铺垫。

3. 范式转移

  • 1986-2006,第一范式,非神经网络完全监督学习,例如支持向量机、决策树模型等,特征工程Feature Engineering 主导
  • 2006-2017,第二范式,神经网络完全监督学习,例如 Word2Vec、Long short-term memory等深度学习模型,结构工程 Architecture Engineering 主导
  • 2017-2019,第三范式,预训练模型+精调,例如 BERT+finetuning、CNN等模型,对象工程 Object Engineering 主导
  • 2019-至今,第四范式,预训练模型+Prompt/in-context/instruction,例如 BERT+prompt 等模型,模板工程 Prompt Engineering 主导

GPT:人工智能时代的新宠

作者语:
范式的转移向着越来越适应人的特性来转变,从非神经网络转到模拟生物神经处理信息的方式,从设计模板到适应人类自然语言的输入。

4. Prompt

是在 pretrained language model PLM 的基础上对原始输入进行改造,设计一种特殊的输入形式/模板,这种模板能够帮助 PLM 回忆起预训练阶段学习到的知识,这种模板称为 Prompt

  • 输入 x = “I love this movie.”
  • Prompt 模板 “[X] Overall, it was a [Z] movie”
  • 输出 x’ = “I love this movie. Overall, it was a [Z] movie”
  • 接着 PLM 完成对 [Z] 的填空,可能结果是 fantastic/great
  • 最后将答案转为情感分类的标签
  • 这样可以通过 Prompt 一定程度上控制 PLM 的输出

5. In-Context Learning

ICL 是 Large Language Models LLM 的参数和训练数据量达到一定规模时,涌现出来的一种能力,经验上参数要达到百亿,参数数据量达到百亿~千亿规模。

预训练模型无需 finetune,下游任务提供 few-shot examples 即可以根据上下文学习做预测。

区别于 pretrain + finetune,ICL 是将 few-shot 拼接到 query 前联合预测,无需对模型参数做梯度更新。给上下文示例无论对错都有助于性能提升,但如果给不相关的上下文性能会下降。

  • 输入 “今天天气真好”,输出 “正面”
  • 输入 “今天运气真差”,输出 “负面”
  • 输入 “我很开心”,输出 “XXX”

6. Instruction Tuning

用自然语言下达指令,不需要 prompt 或者 ICL 特定的结构。
LLM 理解自然语言的技术:T0/FLAN

作者语:
普通人在与 GPT 协作时,有下面 3 种方式可以有效提升性能:

  1. 推理:在很多语境下,构建有推理步骤的解答可以提升性能;
  2. 示例:<普通文案,风格化创意文案> 用前面这样的格式来生成更优的创意文案;
  3. 多模态:在 GPT4 中可以尝试提供文本、图片、语音、视频等多模态信息来提升性能。

Reference

  1. Pretrain, Prompt, Predict
  2. Prompt-based Learning Paradigm in NLP – Part 1
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

Meta最新项目Segment Anything:图像分割领域的新任务、模型、数据集

2023-12-13 23:05:14

AI教程

2023年深圳大学计算机与软件学院海内外青年科学家云论坛 - 人工智能与图形图像

2023-12-14 0:45:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索