人工智能公司面临的训练数据挑战及解决方案

释放双眼,带上耳机,听听看~!
近日,人工智能公司在收集高质量训练数据方面遇到困难,《纽约时报》详细介绍了一些公司处理这一问题的方法。涉及到了人工智能版权法的模糊灰色区域,解决方案包括对模型创建的\"合成\"数据进行训练,或采用\"课程学习\"方法。但这些公司的另一个选择是使用他们能找到的任何东西,无论他们是否获得许可,这可能会引发版权法方面的担忧。

AICMTY(aicmty.com) 4月7日 消息:近日,《华尔街日报》报道称,人工智能公司在收集高质量训练数据方面遇到了困难。随后,《纽约时报》详细介绍了一些公司处理这一问题的方法,其中涉及到了人工智能版权法的模糊灰色区域。

故事从OpenAI开始。该公司迫切需要训练数据,据报道开发了Whisper音频转录模型,转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。《纽约时报》报道称,OpenAI知道这在法律上存在问题,但相信这是合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的收集。

人工智能公司面临的训练数据挑战及解决方案

OpenAI发言人林赛·赫尔德告诉The Verge,该公司为每个模型策划了"独特"的数据集,并使用"众多来源,包括公开数据和非公开数据的合作伙伴"。赫尔德还表示,该公司正在考虑生成自己的合成数据。

据《纽约时报》消息人士透露,谷歌也从YouTube收集了文字记录。谷歌发言人马特·布莱恩特表示,该公司"根据我们与YouTube创作者的协议,在一些YouTube内容上训练了模型"。

Meta同样也遇到了良好训练数据可用性的限制。该公司在努力追赶OpenAI的过程中,曾考虑未经许可使用版权作品的情况,包括支付图书许可费用或直接收购一家大型出版商。

这些公司正在努力应对模型训练数据快速蒸发的问题。《华尔街日报》本周撰文称,到2028年,公司可能会超越新内容。解决方案包括对模型创建的"合成"数据进行训练,或采用"课程学习"方法。但这些公司的另一个选择是使用他们能找到的任何东西,无论他们是否获得许可,这可能会引发版权法方面的担忧。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI资讯

通义千问团队最新发布Qwen1.5-32B模型系列

2024-4-7 11:20:34

AI资讯

OpenAI使用YouTube视频训练GPT-4模型 | 数据获取限制挑战

2024-4-7 11:30:41

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索