GPT4发布及其对人工智能领域的影响

释放双眼，带上耳机，听听看~！

本文介绍了GPT4的发布及其对人工智能领域的影响，包括对ChatGPT的升级、多模态方式的支持和数学问题处理能力的提升。欢迎关注极智视界公众号，获取更多相关经验分享。

“本文正在参加人工智能创作者扶持计划 ”

欢迎关注我的公众号 [极智视界]，获取我的更多经验分享

大家好，我是极智视界，本文介绍一下 GPT4来了，ChatGPT又该升级了，更多的是个人思考。

邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码下载，链接：t.zsxq.com/0aiNxERDq

从 ChatGPT 发布 (2022年11月30日) 到现在已经差不多三四个月的时间了，实话实说已经火的”一塌糊涂” ，其影响力早已超出了AI领域，甚至似乎要给人工智能带来新一轮的革命。从 ChatGPT 火爆至今，按理来说，我作为一名人工智能领域的创作者，早就应该来 “凑凑热闹”。但考虑到本身我输出的文章更加偏”干货”一些，所以我其实并不太想写一些过于 “花里胡哨” 的东西，所以一直也没太想”蹭蹭” ChatGPT 的热度。

现在热度过了这么久了，我也想可以适当输出一些关于”它”的文章，以佐证我还是一名 AIer。这篇文章其实更加多的会写一些我个人对于 ChatGPT 的思考，特别是针对 GPT4 发布之际，一些新的思考。

正如上周微软德国首席技术官 Andreas Braun 的预告，OpenAI 将在这周发布 GPT-4，现在 GPT-4 也如约而至，考虑到 GPT-3.5 和其的”衍生物” ChatGPT 的火热，GPT-4 的发布也必将再在AI界掀起来新一波的 “腥风血雨” (这有点像新一代 iphone 发布那样)。

GPT4发布及其对人工智能领域的影响

对于 GPT-4 的发布，先让咱们来 cc OpenAI 的官网是怎么说的：

GPT4发布及其对人工智能领域的影响

We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.

短短的几句介绍里，却有相当炸裂的点：接受图像和文本输入，输出文本输出。这意味着即将打破 ChatGPT text-to-text 纯文本的问答模式，也意味着升级后新版的 ChatGPT 可能会同时支持文本的提问&&图像提问的 多模态方式，这是一种跨越式的进步 (顺便提一句，虽然这在其他多模态大模型中早已司空见惯)。比如我们应该可以直接提供一道数学解三角函数的题，题目可能会包括数学图形关系，这应该也难不倒以GPT-4作为基座进化后的 ChatGPT 了，而这对于现在的 ChatGPT 来说，它其实根本 “看不见” 图像里的表达 (你可以简单理解为：现在的 ChatGPT 只会说话，但是它并没有眼睛)。

另外相比于 GPT-3 或者 GPT-3.5，GPT-4 极大地提升了复杂表述问题、复杂逻辑问题的处理能力，更加特别的是，GPT4 还极大提升了其数学问题的处理能力，它甚至能够很好地处理一些奥数的问题，而数学处理能力在目前的 ChatGPT 里也一直被人诟病。

所以整体来看，GPT4 不只是在”纵向发展”，还在”横向拓展” 。”纵向发展”的意思是它在本身就擅长的纯文本问答中的能力继续加强，包括对复杂表达、复杂逻辑和数学问题处理能力的提升，这是它的 “看家本领” / “本职工作”。在此同时呢，它还带来了新的”技能”，说的通俗一点就是 看图说话的能力，说的专业一点是 图像理解能力。GPT4 迈出的这一步足以看出 OpenAI 或者说微软(毕竟在围绕投资两轮 OpenAI 后，两家差不多就是一条船上的了)的野心，这明白的再表示：ChatGPT想做一个真正意义上的 “Unified Vision-Language Understanding and Generation” 的大模型。

而这会动了很多人的蛋糕，拿微软本身来说，它也有自身主打视觉-语言大一统的大模型 BLIP，如果 ChatGPT 的发展在大一统的路上表现地更加好，那 BLIP / BLIP-2 的发展就比较尴尬。按这样的节奏，如果在 GPT-4.5 或者 GPT-5 中推出 “Image Generation” 功能，凭借 ChatGPT 本身大量的活跃用户，那么像扩散模型、国内太乙 (注：这些大模型主打图像生成) 的生存空间又在哪里呢，再如果加上视频理解、视频生成功能呢。

所以如果说 transformer 把视觉-语言进行了大一统，那么按照 ChatGPT 这样的发展，已经不仅仅是视觉-语言任务的统一了，它还要统一模型！

Transformer 打响了视觉-语言大一统的序幕，而或许，ChatGPT 才是真正大一统的到来。

好了，以上分享了 GPT4 来了，ChatGPT 又该升级了，更多的是个人的一些思考。希望我的分享能对你的学习有一点帮助。

【公众号传送】

《极智AI | GPT4来了, ChatGPT又该升级了》

畅享人工智能的科技魅力。邀请您加入我的知识星球，星球内有丰富的AI技术应用相关技术文章、资源、项目源码，涵盖人脸、检测、分割、多模态、自动驾驶、工业等实用、好玩的项目应用，一定会对你的学习有所帮助。t.zsxq.com/0aiNxERDq

GPT4发布及其对人工智能领域的影响

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

GPT4发布及其对人工智能领域的影响

标签编码方法及示例 - 独热编码与标签编码

API2D开发者计划：开发全流程商业应用的最佳选择

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

标签编码方法及示例 - 独热编码与标签编码

API2D开发者计划：开发全流程商业应用的最佳选择

ChatGPT：未来智能语言模型，解放大脑，你还不来？

ChatGPT如何利用注意力机制产生智能？

ChatGPT和Midjourney：人工智能项目设计之旅

ChatGPT：对话式人工智能的新进展