LookOnceToHear

释放双眼,带上耳机,听听看~!
实时语音提取智能耳机交互系统

LookOnceToHear官网链接地址:https://github.com/vb000/LookOnceToHear

网站默认显示语言:英语

LookOnceToHear 介绍

LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取,为用户提供了一种新颖的交互方式。

LookOnceToHear用户群体

该产品适合需要在嘈杂环境中进行语音识别和提取的研究人员和开发者。例如,它可以帮助听力障碍者在嘈杂环境中更好地理解对话,或者在多声源环境中进行语音分析和处理。

在会议中,通过 LookOnceToHear 选择听取特定发言人的声音

在嘈杂的公共场所,帮助听力障碍者集中听取对话

在音频分析研究中,用于区分和提取多个声源

LookOnceToHear的核心功能

  • 用户通过看向目标说话者几秒钟来选择想要听到的声音
  • 使用 Scaper 工具包合成生成音频混合
  • 提供自包含的数据集和训练用的 .jams 规范文件
  • 支持实时语音提取和目标语音听力模型的评估
  • 提供了模型的检查点,方便用户进行训练和评估
  • 适用于嘈杂环境下的语音识别和提取
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
开发者工具

All in AI

2024-5-27 15:13:45

开发者工具

Outlines

2024-6-5 17:27:01

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索