GPT-4o全方位模型发布及安全评估

释放双眼，带上耳机，听听看~！

GPT-4o全方位模型发布，支持多种输入输出模式，并经过广泛安全评估，确保交互安全性。该模型在音频、视觉和文本处理方面表现优异，具有潜在的广泛应用价值。

视频链接：https://www.ixigua.com/iframe/7368759349251932723?autoplay=0

GPT-4o（“o” 代表 “omni 全方位”）能够实时处理音频、视觉和文本信息，使人机交互更加自然流畅。

我们很高兴地宣布，推出了全新的旗舰模型 GPT-4o，能够在音频、视觉和文本之间实时进行推理。

GPT-4o（“o” 代表 “omni 全方位”）能够实时处理音频、视觉和文本信息，使人机交互更加自然流畅。这款模型支持多种输入（文本、音频、图像）和输出（文本、音频、图像）模式，其响应音频的速度极快，最快可达 232 毫秒，平均响应时间为 320 毫秒，与人类在对话中的反应速度相当。无论是处理英语文本还是代码，GPT-4o 的表现堪比 GPT-4 Turbo，而在处理非英语文本方面则有了显著提升，同时运行速度更快，API 成本也减少了 50%。特别是在视觉和音频理解方面，GPT-4o 表现远超以往模型。

groups.inf.ed.ac.uk/ami/corpus/

输出

该音频包含四位发言者。内容主要是一次项目启动会议，项目经理 Mark 首先自我介绍，并邀请其他团队成员依次介绍自己及各自的角色。Mark 之后，另外三位发言者分别是市场营销专家 Dirk、用户界面设计师 Nick 和工业设计师 Xavier，他们分别介绍了自己在项目中的主要职责。

输入

你能用发言者的名字来转录吗？

输出

Mark: 早上好，大家。这是我们团队的首次会议。

Team: 早安。

Mark: 我是 Mark，今天和整个项目期间的项目经理。我会主持今天的介绍，帮助我们启动项目。今天的议程是…… 首先，我们都是新朋友，最好先相互了解一下。让我们从这里开始。请从你做起，介绍一下自己。你是负责市场营销的吗？

Dirk: 是的，我叫 Dirk Meinfelt，在本项目中我负责市场营销。我将探究用户的需求和我们可以提供的新产品方案。

Mark: 很好。你是？

Nick: 我是 Nick de Boer，担任用户界面设计师。我主要关注的是从用户视角出发的技术设计。

Mark: 好的。

Xavier: 我是 Xavier Joerkens，工业设计师。我需要解决的三个主要问题是……

讲座总结

准备框架及自愿承诺，我们对 GPT-4o 的网络安全、化学生物辐射核（CBRN）、说服能力及自主性等方面进行了评估，结果显示其风险等级均不超过中等。此评估包括在模型训练过程中进行的系列自动化及人工评估。我们测试了模型安全措施实施前后的版本，通过自定义的微调和提示来深入探测模型的能力。

GPT-4o 还经历了 70 多位专家的广泛外部红队测试，这些专家来自社会心理学、偏见与公正、误信息等领域，旨在识别新引入或增强的风险。我们根据这些经验建立了安全干预措施，进一步提升与 GPT-4o 互动的安全性，并将持续对新发现的风险进行缓解。

我们明白，GPT-4o 在音频方面带来了多种新的风险。现在，我们开始公开发布文本和图像输入以及文本输出。未来几周和几个月，我们将专注于构建技术基础设施、通过后期训练提高可用性，并确保其他模式的安全发布。例如，初期阶段，音频输出将限于预设的几种声音，并且严格遵守我们现有的安全政策。我们将在即将发布的系统卡中详细介绍 GPT-4o 所有模态的信息。通过对模型的持续测试和改进，我们识别了存在于所有模态中的一些限制。

我们期待您的反馈，帮助我们识别出在哪些任务中 GPT-4 Turbo 仍然表现优于 GPT-4o，以便我们继续对模型进行优化。

x.com/dotey/statu…

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

GPT-4o全方位模型发布及安全评估

groups.inf.ed.ac.uk/ami/corpus/

输出

x.com/dotey/statu…

通义灵码：阿里云智能编码辅助工具介绍及功能优势

OpenAI发布ChatGPT-4o：无延迟语音对话、高情商表现和视觉推理功能介绍

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

groups.inf.ed.ac.uk/ami/corpus/ 输出

x.com/dotey/statu…

通义灵码：阿里云智能编码辅助工具介绍及功能优势

OpenAI发布ChatGPT-4o：无延迟语音对话、高情商表现和视觉推理功能介绍

通义千问开源全家桶新模型Qwen-72B发布，性能超越商用闭源模型

Claude 3 模型系列发布：重设行业认知任务标准

GPT原理与使用技巧

DALL ・ E 3：集成ChatGPT的新特点和生成效果

groups.inf.ed.ac.uk/ami/corpus/

输出