OpenAI发布全新ASR模型Whisper3,计划开放API

释放双眼,带上耳机,听听看~!
OpenAI在开发者日发布了全新的自动语音识别模型Whisper3,具备多语言支持和独特的时间戳功能,计划未来开放API,推动语音处理应用的发展。

划重点:

OpenAI在开发者日发布了一系列开源模型,其中包括升级版的自动语音识别模型Whisper3

– Whisper3具备多语言支持,可将音频内容转录成文本,还具备独特的时间戳功能,适用于制作字幕。

– OpenAI计划未来向用户开放Whisper3的API,以推动语音处理应用的发展。

AICMTY(aicmty.com)11月7日 消息:在OpenAI的开发者日活动中,该人工智能初创公司发布了一系列开源模型,其中包括了升级版的自动语音识别(ASR)模型——Whisper3。这一模型具备多语言支持,可以将音频内容快速准确地转录成文本,并具备独特的时间戳功能,使其适用于制作字幕等应用。

OpenAI发布全新ASR模型Whisper3,计划开放API

最初,Whisper模型主要针对英语应用,但随着时间的推移,它经过升级,已经支持多种语言,尽管具体支持的语言并未明确提及。该模型以宽松的许可协议在GitHub上开源,因此开发者可以轻松获取并使用它,被誉为目前最出色的转录工具之一。

Whisper3的工作原理涉及将音频分段成30秒的片段,然后通过编码器和解码器将其转化为文本字幕。此外,该模型还具备语言识别功能,有助于实现多语言语音转录和翻译成英语。有趣的是,最初计划将Whisper模型与ChatGPT集成,使用户能够通过语音直接与聊天机器人交流,但后来OpenAI决定将该模型直接向公众开放。

OpenAI之所以选择开源Whisper3,是为了为构建有用的语音处理应用和进一步的鲁棒语音处理研究提供基础。该模型经过了大规模数据集的训练,包括来自互联网的超过68万小时的数据,其中三分之一来自非英语来源。

OpenAI计划未来将Whisper3的API向用户开放,这将为开发者和研究人员提供更多机会,以创造创新的语音处理应用,推动语音技术的发展。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI资讯

人工智能民主化:让AI技术更加平易近人

2023-11-7 15:01:57

AI资讯

阿里通义点金官网入口 | 通义点金AI功能介绍

2023-11-7 15:41:00

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索