GPT-4o全方位模型发布及安全评估

释放双眼,带上耳机,听听看~!
GPT-4o全方位模型发布,支持多种输入输出模式,并经过广泛安全评估,确保交互安全性。该模型在音频、视觉和文本处理方面表现优异,具有潜在的广泛应用价值。

视频链接:https://www.ixigua.com/iframe/7368759349251932723?autoplay=0

GPT-4o(“o” 代表 “omni 全方位”)能够实时处理音频、视觉和文本信息,使人机交互更加自然流畅。

我们很高兴地宣布,推出了全新的旗舰模型 GPT-4o,能够在音频、视觉和文本之间实时进行推理。

GPT-4o(“o” 代表 “omni 全方位”)能够实时处理音频、视觉和文本信息,使人机交互更加自然流畅。这款模型支持多种输入(文本、音频、图像)和输出(文本、音频、图像)模式,其响应音频的速度极快,最快可达 232 毫秒,平均响应时间为 320 毫秒,与人类在对话中的反应速度相当。无论是处理英语文本还是代码,GPT-4o 的表现堪比 GPT-4 Turbo,而在处理非英语文本方面则有了显著提升,同时运行速度更快,API 成本也减少了 50%。特别是在视觉和音频理解方面,GPT-4o 表现远超以往模型。

groups.inf.ed.ac.uk/ami/corpus/
  1. 输出

该音频包含四位发言者。内容主要是一次项目启动会议,项目经理 Mark 首先自我介绍,并邀请其他团队成员依次介绍自己及各自的角色。Mark 之后,另外三位发言者分别是市场营销专家 Dirk、用户界面设计师 Nick 和工业设计师 Xavier,他们分别介绍了自己在项目中的主要职责。

  1. 输入

你能用发言者的名字来转录吗?

  1. 输出

Mark: 早上好,大家。这是我们团队的首次会议。

Team: 早安。

Mark: 我是 Mark,今天和整个项目期间的项目经理。我会主持今天的介绍,帮助我们启动项目。今天的议程是…… 首先,我们都是新朋友,最好先相互了解一下。让我们从这里开始。请从你做起,介绍一下自己。你是负责市场营销的吗?

Dirk: 是的,我叫 Dirk Meinfelt,在本项目中我负责市场营销。我将探究用户的需求和我们可以提供的新产品方案。

Mark: 很好。你是?

Nick: 我是 Nick de Boer,担任用户界面设计师。我主要关注的是从用户视角出发的技术设计。

Mark: 好的。

Xavier: 我是 Xavier Joerkens,工业设计师。我需要解决的三个主要问题是……

讲座总结

准备框架自愿承诺,我们对 GPT-4o 的网络安全、化学生物辐射核(CBRN)、说服能力及自主性等方面进行了评估,结果显示其风险等级均不超过中等。此评估包括在模型训练过程中进行的系列自动化及人工评估。我们测试了模型安全措施实施前后的版本,通过自定义的微调和提示来深入探测模型的能力。

GPT-4o 还经历了 70 多位专家的广泛外部红队测试,这些专家来自社会心理学、偏见与公正、误信息等领域,旨在识别新引入或增强的风险。我们根据这些经验建立了安全干预措施,进一步提升与 GPT-4o 互动的安全性,并将持续对新发现的风险进行缓解。

我们明白,GPT-4o 在音频方面带来了多种新的风险。现在,我们开始公开发布文本和图像输入以及文本输出。未来几周和几个月,我们将专注于构建技术基础设施、通过后期训练提高可用性,并确保其他模式的安全发布。例如,初期阶段,音频输出将限于预设的几种声音,并且严格遵守我们现有的安全政策。我们将在即将发布的系统卡中详细介绍 GPT-4o 所有模态的信息。通过对模型的持续测试和改进,我们识别了存在于所有模态中的一些限制。

我们期待您的反馈,帮助我们识别出在哪些任务中 GPT-4 Turbo 仍然表现优于 GPT-4o,以便我们继续对模型进行优化。

x.com/dotey/statu…

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

通义灵码:阿里云智能编码辅助工具介绍及功能优势

2024-5-16 18:35:00

AI教程

OpenAI发布ChatGPT-4o:无延迟语音对话、高情商表现和视觉推理功能介绍

2024-5-16 20:02:00

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索