大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

释放双眼，带上耳机，听听看~！

OpenAI即将推出多模态模型GPT-vision，与谷歌的多模态模型竞争。这将是OpenAI在GPT-4之后推出的最大更新，同时也是对谷歌的抗衡。点击了解更多关于OpenAI和谷歌多模态模型的竞争。

大模型之争，又卷起来了。

据 The information 爆料称，OpenAI 即将推出多模态模型 GPT-vision。

如果消息为真，这将是 OpenAI 在 GPT-4 之后推出的最大更新。

另一边，谷歌的多模态模型进展也在最近传出，为的就是能和 OpenAI 抗衡。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

目前为止，OpenAI 还没有对爆料中的传闻做出回应，但此前发布过多模态模型测试。

CEO 奥特曼在回应有关 GPT-5 的传闻时，也暗示过 GPT-4“正在增强”。

究竟谁能更胜一筹，还得让子弹再飞一会儿。

不能让 Google 抢了先

我们先回到 OpenAI，被爆料的多模态模型将搭载什么样的功能呢？

首先是图像内容识别，比如根据手绘草图生成网页代码、输出可视化图表的文本分析等。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

另一方面则是图像生成，通过简单的文本生成绘画、logo 或表情包。

虽然 OpenAI 没有对这次的爆料做出回应，但做多模态模型这件事本身只是个时间问题。

3 月份，OpenAI 在发布 GPT-4 时，就曾推出了一个多模态 GPT 的预览版本。

当时，OpenAI 把 DEMO 提供给了研究帮助视障群体的机构 Be My Eyes。

除了这家机构之外，就再也没有人见过 OpenAI 的多模态模型是什么样子了。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

在此之后，这个多模态模型更是杳无音讯。

唯一和图像有点关系的，就是 GPT-4 的升级版代码解释器（后改名为高级数据分析）可以处理一些图片任务。

但这是通过调用 Python 库实现的，而且也达不到 AI 中图像识别的程度，和多模态模型更是不沾边了。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

有说法称 GPT-vision 迟迟没有推出的原因可能是对安全的担忧，担心被用于破解验证码和人脸识别系统。

直到这次 Google 多模态模型 Gemini 的消息传出。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

安全问题有没有解决不得而知，但也许 OpenAI 是真的急了，不能任由谷歌超越，才有了模型发布的传闻。

另据爆料，OpenAI 还在准备从头开始开发一个名为 Gobi 的多模态模型，不过训练还未开始。

那么，谷歌这边的情况又是怎样的呢？

Gemini 来势汹汹

来势汹汹的 Gemini，让网友直言其或将成为游戏规则的改变者。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

甚至有媒体夸张一些地说将有机会取代 GPT-4。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

Gemini 主要由谷歌 DeepMind 团队开发。谷歌 CEO 皮查伊介绍，Gemini 集成了多种技术，支持同时输出文本和图像，还可以使用工具和 API。

据悉，Gemini 吸取了很多来自 AlphaGo 的经验教训，包括强化学习和树搜索技术。

而且，凭借着拥有 YouTube 这一得天独厚的优势，海量的训练数据可以说是唾手可得。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

实际上，Google 也一直把 OpenAI 视为竞争对手。

为了和 ChatGPT 较量，Google 此前已经在 Bard 中加入过图像识别功能，但并未改变 ChatGPT 的地位。

但这次推出的 Gemini，OpenAI 也感到害怕了。

尽管竞争激烈，有一点倒是让谷歌和 OpenAI 不谋而合。

那就是，把模型的能力变成真金白银。

谷歌计划的 Gemini 提供方式是通过其 Google Cloud Vertex AI 云服务平台进行，预期价格为每个用户每月 30 美元。

这一做法预计将成为谷歌新的收入来源，尤其是针对企业客户。

而 OpenAI 这边，也已经开始通过金融服务等各种应用程序将 GPT-4 变为现金。

此次多模态的角逐究竟鹿死谁手，我们拭目以待。

参考链接：
[1]www.theinformation.com/articles/op…
[2]www.bigtechwire.com/2023/09/18/…

— 完 —

「AIGC + 垂直领域社群」

招募中！

欢迎关注 AIGC 的伙伴们加入 AIGC + 垂直领域社群，一起学习、探索、创新 AIGC！

请备注您想加入的垂直领域「教育」或「广告营销」，加入 AIGC 人才社群请备注「人才」&「姓名 – 公司 – 职位」。

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

大模型之争：OpenAI即将推出GPT-vision，与谷歌多模态模型竞争

不能让 Google 抢了先

Gemini 来势汹汹

LabVIEW AI视觉工具包及开放神经网络交互工具包常见问题解答

Langchain 源码剖析 Chains系列(三)

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

不能让 Google 抢了先

Gemini 来势汹汹

LabVIEW AI视觉工具包及开放神经网络交互工具包常见问题解答

Langchain 源码剖析 Chains系列(三)

ChatGPT提示工程：提升效果的六大策略

LangChain异步API调用示例及效果分析

OpenAI联合创始人Andrej Karpathy在Microsoft Build 2023上介绍GPT的训练流程

OpenAI CEO Sam Altman否认GPT-5训练，对AI安全性问题做出回应