OpenAI发布GPT-4：多模态AI模型带来的革命性进展

释放双眼，带上耳机，听听看~！

OpenAI于3月15日发布了GPT-4，这是一个多模态的深度学习模型，为人工智能领域带来了革命性的进展。该模型能够接受图像和文本输入，并生成文本输出，展现出了令人兴奋的能力和潜力。本文介绍了GPT-4的能力、视觉输入功能、可操纵性、局限性，并探讨了它带来的应用冲击和对业态的意义。

OpenAI于3月15日最新发布了GPT-4，这是OpenAI在扩展深度学习方面的最新里程碑。

GPT-4 最令人兴奋的方面之一是其多模式方法（图像和文本输入、文本输出），该方法在功能和对齐方面都取得了显着进步。

OpenAI发布GPT-4：多模态AI模型带来的革命性进展
GPT-4 是一个大型多模态模型（接受图像和文本输入，发出文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的表现。

GPT-4 的发布非常全面，有一份 98 页的技术报告、一份 60 页的system card、一个 API 候补名单和一个令人印象深刻的演示视频。

全文目录：

GPT-4介绍一览图
GPT-4的能力
GPT-4的视觉输入功能
GPT-4的可操纵性
GPT-4的局限性
GPT-4的基本元素和方法
GPT-3 和 GPT-4 有什么区别
GPT-4的应用案例
多邻国
be my eyes
Stripe
Morgan Stanley wealth management（摩根士丹利财富管理）
GPT-4的未来应用场景
多模态GPT-4划时代的意义
多模态GPT-4带来的应用冲击
多模态GPT-4对交互端的冲击
多模态GPT-4对业态的意义
试用ChatGPT-plus
加入GPT-4的API候补名单
最后的话

GPT-4介绍一览图

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

GPT-4的能力

在随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就出现了——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

为了了解这两种模型之间的差异，在各种基准测试上进行了测试，包括最初为人类设计的模拟考试。Open继续使用最新的公开测试（Olympiads and AP free response questions）或购买2022-2023版的模拟考试。

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

甚至是Leetcode都内卷过了大多数人

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

莫非这就是Leetcode刷题大师？

OpenAI还在为机器学习模型设计的传统基准测试上评估了 GPT-4。GPT-4 的性能大大优于现有的大型语言模型，以及大多数最先进的（SOTA）模型，其中可能包括特定于基准的制作或其他训练协议：

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

GPT-4的视觉输入功能

GPT-4 可以接受文本和图像的提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。具体来说，它生成文本输出（自然语言、代码等），给定由穿插文本和图像组成的输入。在一系列域（包括包含文本和照片的文档、图表或屏幕截图）上，GPT-4 表现出与纯文本输入类似的功能。此外，它可以通过为纯文本语言模型开发的测试时技术进行增强，包括少数镜头和思维链促使。图像输入仍然是研究预览，不公开可用。

以巴黎综合理工学院考试题目为例：

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

GPT-4的可操纵性

OpenAI一直在研究OpenAI帖子中概述的计划的各个方面定义 AI 的行为，包括可操纵性。开发人员（现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 风格和任务，而不是具有固定冗长、语气和风格的经典ChatGPT个性。

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

GPT-4 接受文本和图像中的提示，允许用户指定任何视觉或语言任务。例如，给定一个看起来很奇怪的充电器的图像，并询问 GPT-4 为什么它很有趣。

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

GPT-4的局限性

GPT-4 仍然是一个机器学习模型，可能会根据训练的数据产生错误或偏差。
GPT-4 可能会生成不适合所有受众的文本，因此请务必在发布前查看生成的文本。

尽管具有功能，但 GPT-4 具有与早期 GPT 模型类似的限制。最重要的是，它仍然不完全可靠（它“幻觉”事实并犯推理错误）。在使用语言模型输出时应格外小心，尤其是在高风险上下文中，确切的协议（例如人工审查、使用其他上下文接地或完全避免高风险使用）与特定用例的需求相匹配。

虽然仍然是一个真正的问题，但与以前的模型相比，GPT-4 显着减少了幻觉（这些模型本身在每次迭代中都在改进）。在OpenAI的内部对抗性事实性评估中，GPT-4 的得分比OpenAI最新的 GPT-40.3 高 5%：

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

GPT-4 无法理解编写文本的上下文。根据给定的输入和从训练数据中发现的模式，它创建文本。

GPT-4的基本元素和方法

注意力机制：生成文本时，GPT-4 采用注意力方法来确定各种输入组件的相对相关性。因此，模型可以专注于输入的特定元素，并生成更多具有凝聚力且适合给定上下文的文本。
预训练：GPT-4 程序已针对大量文本数据进行了预训练，使其能够理解和生成多种语言和主题领域的文本。预训练需要在大量的材料（包括书籍、论文和网页）上对模型进行测试。
适应：通过在较小的、特定于任务的数据集上预训练 GPT-4，它可以针对某些任务进行定制，例如语言翻译、文本摘要和问答。
语言建模：由于 GPT-4 是一种语言模型，因此它被教导根据上下文预测句子中的以下单词。因此，它可以产生语法和结构上合理的写作。
神经网络：GPT-4 算法基于神经网络，这是一类旨在模拟人脑结构和操作的机器学习模型。处理和发送信息的链接节点或“神经元”层构成了神经网络。
优化算法：GPT-4 模型通过使用 Adam 和 RAM 等优化算法更新模型参数并最小化损失函数。
大规模数据：由于 GPT-4 是在大量数据上进行训练的，因此它可以理解和生成多种语言和主题的文本。该模型在强大的GPU上训练以加快该过程，并且大量数据保存在基于云的数据中心中。

总体而言，GPT-4 通过将尖端的深度学习算法与大规模数据相结合，实现了其高度的语言解释和生成技能。

GPT-3 和 GPT-4 有什么区别

增强解决问题的能力：GPT-4 加强了它的游戏，拥有更广泛的一般知识和以更准确的方式解决更棘手问题的能力。向更聪明的 AI 伙伴问好！
更高水平的创造力和协作：GPT-4 将创意协作提升到新的高度。从创作歌曲到编写剧本，它可以与您一起生成、编辑和迭代。此外，它会学习您的写作风格以建立无缝的合作伙伴关系！
图像输入和输出：GPT-4 超越了文本——它可以接受图像作为输入，生成标题、分类和分析。这就像有一个私人艺术评论家和策展人陪伴在你身边！
更多文字，更多可能：GPT-25 能够处理超过 000，4 字的文本，开辟了一个充满可能性的世界，包括长篇内容创建、扩展对话以及文档搜索和分析。准备好处理这些雄心勃勃的项目！
深度学习的力量：基于GPT，GPT-2和GPT-3的研究之旅，GPT-4利用更多的数据和计算来创建越来越复杂和有能力的语言模型。人工智能的未来看起来比以往任何时候都更加光明！

GPT-4的应用案例

GPT-4 的应用包括但不限于：会话系统、购物助手、反欺诈措施、金融、教育和文化遗产保护。

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

多邻国

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

每月有超过 50 万学习者依靠 Duolingo 教他们第二语言。凭借简单的用户界面和有趣但有竞争力的排行榜，Duolingo 在 40+ 门课程中支持 100 种语言。学习者通过点击和滑动手机从简单的词汇练习发展到复杂的句子结构。

如果学习者想要超越基本熟练程度，了解语法规则会很有帮助。但是，真正精通一门语言需要对话，最好是与母语人士进行对话，这不是每个人都能接触到的。

“人工智能一直是OpenAI战略的重要组成部分，”首席产品经理Edwin Bodge说。“OpenAI一直在使用它来个性化课程和运行 Duolingo 英语测试。但是，OpenAI想要填补学习者旅程中的空白：对话练习和对错误的上下文反馈。

Duolingo转向OpenAI的GPT-4，通过两项新功能来推进产品：角色扮演，AI对话伙伴和解释我的答案，当你犯错时，它会在一个名为Duolingo Max的新订阅层中分解规则。

“OpenAI希望人工智能驱动的功能能够深度集成到应用程序中，并利用OpenAI的学习者喜爱的 Duolingo 游戏化方面，”Bodge 说。

Duolingo工程师曾尝试使用GPT-3来补充其早期聊天功能中的一些人力功能。“它已经接近准备就绪，”首席工程师比尔彼得森说，“但OpenAI觉得它还没有达到OpenAI可以自信地集成它来处理聊天的复杂自动化方面的地步。

以前，Duolingo 试图通过脚本对话与学习者“聊天”，其中包含订购食物、第一次与某人见面或购买机票等经典场景。但Bodge说，Duolingo需要的是能够在小众环境中与学习者交谈，并且“身临其境”——就篮球或到达山顶的幸福进行自由流动的对话。GPT-4 从足够的公共数据中学习，为学习者创建灵活的来回。

be my eyes

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

Be My Eyes是一款免费的应用程序，可立即接收视频支持。每天，视力正常的志愿者和专业人士都会用眼睛来解决大大小小的任务，以帮助盲人和低视力的人过上更独立的生活。

虚拟志愿者功能将集成到现有应用程序中，并包含一个由OpenAI的GPT-4提供支持的动态新图像到文本生成器。用户可以通过该应用程序将图像发送给人工智能驱动的虚拟志愿者，该志愿者将为各种任务提供即时识别、解释和对话视觉帮助。

Stripe

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

Stripe利用 GPT-4 来简化用户体验并打击欺诈行为，社区平台上的欺诈检测。

Stripe 在 Discord 等论坛上维护着一个强大的社区，这不仅有助于解决利基技术问题，还可以提高开发人员对未来工作的可见性。然而，由于恶意行为者在互联网上，他们通常会进入这些论坛，他们经常试图从社区成员那里获取关键信息，或者在被踢出平台后重新获得 Stripe 社区团队的信任。

仅仅通过分析 Discord 中帖子的语法，GPT-4 就一直在标记 Stripe 欺诈团队应该跟进的帐户，并确保它实际上不是一个欺诈者。GPT-4 可以帮助扫描入站通信，识别来自恶意行为者的协调活动。

Morgan Stanley wealth management（摩根士丹利财富管理）

摩根士丹利财富管理部署 GPT-4 来组织其庞大的知识库。

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

作为财富管理的领导者，摩根士丹利拥有一个内容库，其中包含数十万页的知识和见解，涵盖投资策略、市场研究和评论以及分析师见解。这些海量的信息存储在许多内部站点中，主要是PDF格式，需要顾问扫描大量信息以找到特定问题的答案。此类搜索可能既耗时又繁琐。

在OpenAI的GPT-4的帮助下，摩根士丹利正在改变其财富管理人员查找相关信息的方式。

从去年开始，该公司开始探索如何利用GPT的嵌入和检索功能（首先是GPT-3，现在是GPT-4）来利用其智力资本。该模型将为面向内部的聊天机器人提供支持，该聊天机器人对财富管理内容进行全面搜索，并“有效地解锁摩根士丹利财富管理的累积知识，”分析，数据与创新主管Jeff McMillan说，他的团队正在领导该计划。他的项目负责人指出，GPT-4 终于能够将所有见解解析为更可用和可操作的格式。

“你基本上拥有财富管理领域知识最渊博的人的知识——立即”，McMillan补充道。“把它想象成OpenAI的首席投资策略师、首席全球经济学家、全球股票策略师以及全球所有其他分析师每天为每位顾问服务。OpenAI相信这对OpenAI公司来说是一种变革能力。

GPT-4的未来应用场景

目前：

GPT-4 已经接受了大量数据的训练，使其能够理解和生成多种语言和主题的文本。
GPT-4 可以产生有凝聚力、流畅且语法准确的写作。它还可以生成适合周围情况的文本。
GPT-4 具有大量词汇量，可以生成高度详细和复杂的文本。
GPT-4 可以完成文本输入、预测下一个单词、生成段落、摘要甚至故事。
GPT-4 可以针对特定任务进行微调，例如机器翻译、文本摘要和问答。

潜在应用场景：

内容创作：GPT-4 可用于生成文章、博客文章和社交媒体内容。
语言翻译：GPT-4 可以定制以执行某些任务，包括问答、文本摘要和机器翻译。
应用可能性：GPT-4 可用于为博客、社交网络平台和出版物创建材料。
语言翻译：GPT-4 可以针对机器翻译作业进行定制，使其能够准确地翻译不同语言的文本。
文本摘要：GPT-4 可以进行调整以生成冗长文档的摘要，使其有助于涉及知识管理和信息检索
自然语言处理：GPT-4可能会进一步提高自然语言处理的准确性，使得机器能够更好的理解和生成自然语言。这有助于改进智能客服、自动翻译、智能写作等应用。
人工智能：GPT-4可能会成为更好的人工智能算法，能够更好地处理语言、图像和视频数据。这将有助于改进语音识别、计算机视觉和自动驾驶等。
教育：GPT-4可能会成为更好的教育工具，能够更好地辅助学生学习和理解知识。这将有助于改进在线教育、自适应教育和智能教育等应用。
医疗保健：GPT-4可能有助于改进医疗保健领域的自然语言处理和医学诊断。他可能会成为更好的医学助手，能够更好地帮助医生进行诊断和治疗。
营销和广告：GPT-4可能会成为更好的营销和工具广告，能够更好地生成精准的广告和营销内容，这将有助于改进广告投放和营销策略。

多模态GPT-4划时代的意义

多模态GPT-4带来的应用冲击

基于一张图直接生成网页代码是一个极具震撼的例子

随口还可以举N个例子：

做一个给盲人用的APP，取代以前的盲人交互模式（震动+按键朗读）
取代OCR，做基于图片的阅读理解（OCR技术暴风哭泣）
阅读动漫，生成同人小说
聊天中的表情包理解，强化情感体验

切记牢记，LLM是真正理解图像，不要用以前那种图转文的视角去看待他，否则会错过很多应用层的机会。

多模态GPT-4对交互端的冲击

多模态对目前所有的交互端的改变都是非常非常非常强烈的！例如微软所说——如果你体验过新版的Edge浏览器，那你就已经体验过GPT-4了。

在目前所有的交互端，包括PC、手机、车载屏、智慧大屏、音箱、手表、VR等，都会因为多模态LLM迎来全新的变革。

目前OpenAI看不到的核心原因在于

第一，国内LLM都还没上线，而手机厂商、语音音箱等往往是二线厂，目前都处于不甘心要自研的阶段，即使头部云厂商（如百度）做出来了也不一定会马上用。
第二，国外更是如此，主流的安卓系（Google），苹果都不会甘心向微软系低头认输。

所以OpenAI现在暂时只看到PC端 Windows的变化，但是很快，在今年内，所有交互端都会陆续发生改变。

我不是在写科幻小说，这是真的、马上、即将要发生的未来！

多模态GPT-4对业态的意义

由于 GPT-4 多模态是一种基于图像和文本的人工智能技术，因此它在很多领域都有可能产生广泛的影响。以下是一些可能的影响：

图像识别行业：GPT-4 多模态拥有更高的图像识别能力，在自动识别图像、标注图像等方面，可能会对当前的图像识别行业产生影响。
自动化生产行业：GPT-4 多模态可以在多个领域实现自动化生产，例如自动标注图片，自动生成语音、文字和图片等等。
数字营销行业：GPT-4 多模态可以透过分析大量的数据资料进行和分析用户数据，更深入的洞察用户喜好，从而帮助企业精准匹配目标客户，提高营销效果。
教育行业：GPT-4 多模态可以改善教育行业的教学方式，例如教师可以利用 GPT-4 多模态智能可视化技术来让学生更直观地理解课程内容。

总之，GPT-4 多模态技术在未来可能将对许多行业产生深远的影响，从而带来更多的商业机会和经济增长。

试用ChatGPT-plus

chat.openai.com/chat

加入GPT-4的API候补名单

申请链接：openai.com/waitlist/gp…

申请GPT-4的API之前需要先注册Open-AI的账号（需使用海外手机号）

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

其中Company name和Organization ID需要和账号保持一致，可跳转platform.openai.com/account/org…查询name和ID

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

最后的话

GPT-4 是一项有前途的发展，为人工智能以更自然的方式与人类互动开辟了新的可能性。我对 GPT-4 的功能感到非常震惊，甚至无法想象 GPT-5 和 GPT-6 将如何彻底改变世界并改变OpenAI的生活和工作方式。

OpenAI发布GPT-4：多模态AI模型带来的革命性进展

OpenAI 花了 6 个月的时间使 GPT-4 更安全，这令人印象深刻！但这让我思考——GPT-4 的初始版本是什么样子的？它是人工智能系统的野兽吗？只有OpenAI的人才能确定。现在真正的问题是，人工智能在未来还会是安全和可控的吗？这是一个值得进一步探索的话题，因为OpenAI继续见证人工智能技术的进步。

ONE MORE THING

咪豆AI圈(Meedo)针对当前人工智能领域行业入门成本较高、碎片化信息严重、资源链接不足等痛点问题，致力于打造人工智能领域的全资源、深内容、广链接三位一体的在线科研社区平台，提供AI导航网、AI版知乎，AI知识树和AI圈子等服务，欢迎AI未来儿一起来探索（www.meedo.top/）

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

OpenAI发布GPT-4：多模态AI模型带来的革命性进展