大白话聊聊ChatGPT的历程和NLP

释放双眼，带上耳机，听听看~！

本文主要讨论ChatGPT的发展历程以及自然语言处理的相关内容，介绍了生成式预训练大模型程序的概念和NLP在翻译和机器学习领域的应用。

大白话聊聊ChatGPT的历程和NLP

原文链接
mp.weixin.qq.com/s/O7E8c5kFf…
作者就是我啦欢迎关注

前言

大白话聊聊ChatGPT的历程和NLP

其实现在写这个文章，连买菜大大妈可能都在聊 GPT 的时候，都感觉已经过了热度，有的人试用了就就再也没有折腾过，有的人已经把他弄成了日常，每天不问都不行的那种，还有一种就是无论它来或者不来。

补充序
本篇文章一开始名字叫《大白话讲ChatGPT》，不过最近类GPT的模型层出不穷，所以这里借聊GPT来聊聊大模型的大概的历史。

大家对它最感性认识就是ChatGPT里的 Chat

我问它答，继续问, 继续回答

大白话聊聊ChatGPT的历程和NLP

这种交互很原始，就跟我们搜索问题一样，但是很高效，很多问题能够通过聊天的形式解答。

甚至时不时的会让人感觉非常惊艳。

历程

（由于不是专门做算法 AI 的，我今天的交流呢，只能算是一个门外汉，做一个抛砖引玉，如果哪里讲的不太对，欢迎大家交流 o(╯□╰)o ）

GPT 全称 generative pre-trained transformer

我们中文又叫生成式预训练大模型程序

Generative 生成式，那就很直观，生成这种形式来生成有意义的文本

大白话聊聊ChatGPT的历程和NLP

Pre-trained 预训练就是我们理解的很多很多浩如烟海的数据进行预训练

大白话聊聊ChatGPT的历程和NLP

Transformer 呢，好像不是大模型？这意思是变形金刚？

大白话聊聊ChatGPT的历程和NLP

诶这里就说道一个重点了，ChatGpt 里面最重要的东西 Transformer

不过这里先按下不表，先聊聊NLP的历史。

NLP

说起语言处理，大家都会自然而然的想到一个词 NLP（自然语言处理），这也算是计算机一门源远流长的学科了，

平时大家都接触的不算少，最有名就是傻乎乎的 siri，还有更傻的小爱同学

大白话聊聊ChatGPT的历程和NLP

估计大家用的最顺手的就是翻译

大白话聊聊ChatGPT的历程和NLP

注意这里有亮点！

大白话聊聊ChatGPT的历程和NLP

翻译这件事件其实也是源远流长了，老 NLP 了，早在冷战时期，美国 IBM 就开始建立了乔治敦实验室专门就是为了把俄语技术资料翻译成英语

大白话聊聊ChatGPT的历程和NLP

当然当时用的方法不是什么机器学习，主要还是一些规则，把英语和俄语都拆成很小的单元，然后再去用词汇和语法规则去对应，有点像我们查字典，而且就是就是就像我们把每个词语拿出来硬翻译一样。

大白话聊聊ChatGPT的历程和NLP

后来计算机行业才慢慢开始有了机器学习的说法

CNN

机器学习大家其实以前遇到比较多的是图像识别这一类的，比如我们组的 Ai 训练平台用的 yolo 就是用的 CNN 卷积神经网络，而 CNN，大家对其的大概印象就是一个二维矩阵（先以灰度图为例）

输入层

大白话聊聊ChatGPT的历程和NLP

卷积层使用卷积核对特征进行提取（当然这里面涉及到，步长，留白，还有卷积核的选取，这里面就有太多可说的了，这里不是主讲这个先略过）

大白话聊聊ChatGPT的历程和NLP

激励层是为了将这种线性关系打乱
池化层其实还是为了降低数据纬度，将特征搞得更明显

当然还有各种各样的层放在里面最后输出一个模型用于我们识别

大白话聊聊ChatGPT的历程和NLP

Word2vec

从上面看出来其实计算机打交道的都是这些数字，上面这些数字代表的就是黑白图的里面每个像素的灰度，那么计算机理解这些灰度其实就是讲这些值看成了向量去做计算。

大白话聊聊ChatGPT的历程和NLP

同样的 计算机是怎么去理解现实世界的呢，譬如说我们在浏览淘宝的时候有很多商品，比如这时候搜搜了一个 4090 显卡，那在我点进某个宝贝的时候，一般下面都会提示很多猜我喜欢的商品。

计算机是怎么理解我的商品的，然后推荐出猜我喜欢的商品的？

大白话聊聊ChatGPT的历程和NLP

我们可以姑且认为每一个商品都有 颜色，大小，型号，我将其理解为 x，y，z，那么将这些商品是排到一个

x,y,z 三维的坐标轴上，我们就可以看到这样的分布

大白话聊聊ChatGPT的历程和NLP

其实可以看到离我看的这个商品欧拉距离最近的 一定就是很相近的商品，计算机也就是理解相似的。

语言

那刚才说了那么久关于向量，数据的事情，那么语言呢，语言是不是也可以向量化？

当然是可以，但是语言怎么向量化？

可能有人会说像素都用颜色值表示，语言可以用 unicode 表示，

像素的颜色值它是有具体含义的，这个值就是这个数，就代表这个黑的程度

大白话聊聊ChatGPT的历程和NLP
语言经过成百上千年的锤炼是很复杂的，举个例子

比如饼这个子。unicode 是 u997c

但是 u997c 只是一个编号他并没有什么含义，并没表达出这个东西又大又圆还能吃

大白话聊聊ChatGPT的历程和NLP

比如 🍪 的 unicode 是 ud83cudf6a

ud83cudf6a 和 u997c 是什么关系，一点都表达不出来

但是 🍪 和饼就是有关系的，我们该如何表达这层关系？

大白话聊聊ChatGPT的历程和NLP

通过上面的例子，可以看到，语言是一门高度抽象的东西，我们甚至连他的维度都不知道，也不能说是分成 x，y，z 这三维就能去做做解释，它很明显是非常高维度的东西，我们只能通过计算机自己去找到语言特征，以及向量。

举个例子

我们让计算机去理解古诗，我们第一步先确定语言的维度，要复杂一些比如 512 维，就是把古诗的每个字都理解成一个 512 维的向量，然后我们随便把每个字都给一个向量，打乱了，丢在计算机训练。

怎么训练？

我们让计算机自己找文本然后在里面抠掉一些字，让它自己用自己的理解 （也就是当时向量的位置） 去填。
对了就奖励，错了就挨一巴掌。简单的来说就是完形填空。

比如

举头望明月，低头思____

大白话聊聊ChatGPT的历程和NLP

回答大饼

大白话聊聊ChatGPT的历程和NLP

啪，就是一巴掌，然后调整向量值，继续猜，

回答饭香，啪，又是一巴掌，继续调整向量值

大白话聊聊ChatGPT的历程和NLP

最后上千百次的训练，终于调整到了合适的向量，回答出来明月，

同样的将大规模的文本进行这样训练后，我们就能做到文本的向量化了

大白话聊聊ChatGPT的历程和NLP

如图所示，很明显，向量几何距离离得近的，都是意思相近的比如男人和 man 就挨得很近

文字向量化后事情就变得非常有意思，比如能做一些向量计算

Sun + flower = sunflower

或者如图

大白话聊聊ChatGPT的历程和NLP

这个过程叫做词的向量化

也不是什么新鲜事情，

其实在 2013 年 google 就提出来 word2vec

BERT 还有一个就是 OpenAI 的 GPT

不过他们各自取用了 transformer 这里面不同的部分去做训练

BERT 使用的是 transformer encoder 的部分

大白话聊聊ChatGPT的历程和NLP

GPT 呢则是使用的是 decoder 的部分

大白话聊聊ChatGPT的历程和NLP

这两部分是能拆开使用的

BERT

BERT（Bidirectional Encoder Representations from Transformers）是一种双向模型，它通过同时学习文本的前向和后向上下文来获取深入的语义理解。这使得 BERT 在处理需要对上下文进行全面理解的任务（如问答、命名实体识别等）方面有优势。BERT 通过预训练和 Fine Tune（微调）两个阶段进行训练，预训练阶段使用了大量非结构化文本来学习通用的语言表示，而在微调阶段则针对特定任务进行优化（需要指定数据集）。

关键点 双向 微调

GPT

GPT（Generative Pre-trained Transformer）是一种单向（从左到右）模型，主要关注根据给定的上下文生成文本。相较于 BERT，GPT 在生成性任务（如文本生成、摘要等）上表现更好。GPT 也采用了预训练和微调（prompts）的策略，但它的训练目标更注重文本生成，而且他的微调非常简单不需要新的数据集，而是你输入（prompts）的形式告诉他要怎么做，做什么他就可以做到相应的任务。

关键点 单向 prompts

大白话聊聊ChatGPT的历程和NLP

在最初的阶段，很明显 BERT 显得更专业，更加适合单个专业领域 AI，所以一开始在专业领域，GPT 无法在一些需要对上下文进行深入理解的任务中超越 BERT。毕竟 BERT 是对全文去理解，GPT 一开始就是有自废武功的嫌疑。GPT 毫无疑问是被吊打的，而且当时 AI 大家的统一观点就是专业 AI 做专业的事，比如识图的就是识图，翻译的就是搞翻译，写代码的就是写代码。

大白话聊聊ChatGPT的历程和NLP