谷歌Gemini模型的多模态能力及在AI市场竞争中的表现

AI资讯
23年12月12日
编辑

AICMTY

释放双眼，带上耳机，听听看~！

谷歌Gemini模型展示了其多模态能力，并在AI市场竞争中取得了重大成就，对谷歌Bard聊天机器人的发展将产生深远影响。文章介绍了Gemini模型的实时视频和音频处理能力以及其在各种基准测试中的优异表现。

AICMTY（aicmty.com） 12 月 12 日消息：在日益激烈的生成型 AI 市场竞争中，谷歌近期推出了其大型语言模型 Gemini 的预告视频。然而，Gemini 模型的多模态能力，能够巧妙地解读并处理来自实时视频和音频的信息。这对谷歌来说是一项重大成就，尤其是在与 OpenAI 等竞争对手的激烈竞争中。然而，据彭博社报道，演示视频实际上是通过「使用视频的静态图像帧，并通过文本提示」制作的，而不是看似实现的实时语音和视频处理。

在旧金山举行的《财富》杂志 Brainstorm AI 会议上，谷歌助手和 Bard 的副总裁兼总经理 Sissie Hsiao 讨论了这段颇具争议的演示视频。她强调了 Gemini 作为一个模型所达到的标准，以及它将如何推动谷歌的聊天机器人 Bard 的发展。「这个视频完全真实。所有的提示和模型响应都是真实的，」Hsiao 说。「我们确实为了简洁而缩短了部分内容，这些信息也已经在视频中说明。」

演示视频展示了新 AI 模型识别一条波浪线，然后识别新线的曲线，最终绘制出一只鸭子的图画的多模态能力。在整个过程中，模型持续识别每个元素，实时提供与鸭子相关的事实和答案。

Hsiao 突出了 Gemini 在各种基准测试中的成就，这些测试包括高中物理、专业法律难题和道德场景。据 The Verge 报道，Gemini Ultra 在 32 项基准测试中击败了 OpenAI 的 GPT-4，共赢得了 30 项测试，这是一个值得夸耀的成就，尽管 Gemini Ultra 直到明年才会发布。目前，Bard 使用的是不那么先进的 Gemini Pro，大致相当于 GPT 3.5。

Hsiao 表示，这些 Gemini 模型将继续改进谷歌搜索以及谷歌 Bard 聊天机器人，后者据她所说是「目前市场上最受欢迎的免费聊天机器人。」

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

谷歌Gemini模型的多模态能力及在AI市场竞争中的表现

多模态AI爆发前夜：GPT-4V、Pika1.0、谷歌Gemini全面领先

Visual Electric图像生成器：创意过程的全新可能性

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

多模态AI爆发前夜：GPT-4V、Pika1.0、谷歌Gemini全面领先

Visual Electric图像生成器：创意过程的全新可能性

2024年人工智能市场规模预计达到5543亿美元

谷歌人工智能项目Gemini发布时间推迟

人工智能新闻更新：OpenAI任命新CEO、谷歌Bard面临数据泄露风险、Meta解散AI监管团队

谷歌MedLM模型首次亮相，专为医疗保健行业定制