通义千问团队开源首个千亿参数模型Qwen1.5-110B

AI资讯
4月28日
编辑

AICMTY

释放双眼，带上耳机，听听看~！

通义千问团队开源了首个千亿参数模型Qwen1.5-110B，采用了Transformer解码器架构，表现出色并具有高效的分组查询注意力机制。该模型在Chat评估中相较于之前版本表现更好，显示了更大规模模型的潜力。详情请访问模型链接。

AICMTY（aicmty.com）4月28日消息:通义千问团队开源的首个千亿参数模型，Qwen1.5-110B。该模型在基础能力和 Chat 评估中表现出色，与其他同类模型相比有显著提升。Qwen1.5-110B 采用了 Transformer 解码器架构，支持多种语言，并且具有高效的分组查询注意力机制。在 Chat 评估中，该模型相较于之前的版本表现更好，显示了更大规模模型的潜力。

通义千问团队开源首个千亿参数模型Qwen1.5-110B

110B 模型的性能提升主要来自于增加的模型规模，而训练方法并未大幅改变。然而，尽管未改变训练方法，模型规模的增加依然带来了更好的 Chat 模型效果，这表明模型规模的扩展在提升性能方面具有重要意义。

Qwen1.5-110B 是通义千问系列中规模最大的模型，也是首个拥有超过1000亿参数的模型。它在与最近发布的 SOTA 模型的性能比较中表现出色，显示出在模型大小扩展方面仍有很大的提升空间。

未来，团队将继续探索模型规模提升和扩展预训练数据规模两种方法带来的优势。

模型链接:

Qwen1.5-110B-Chat:

https://www.modelscope.cn/models/qwen/Qwen1.5-110B-Chat

Qwen1.5-110B:

https://www.modelscope.cn/models/qwen/Qwen1.5-110B

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

通义千问团队开源首个千亿参数模型Qwen1.5-110B

商量大模型5.0更新：中国AI界的巨变引发外国网友惊叹

美国商务部征求意见关于开放数据集和人工智能模型构建

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

商量大模型5.0更新：中国AI界的巨变引发外国网友惊叹

美国商务部征求意见关于开放数据集和人工智能模型构建

解密Transformer模型：AI大模型的核心机制

OpenAI发布自定义版ChatGPT“GPTs”，开放给所有ChatGPT+订阅者

BibiGPT智能视频总结工具，快速提取关键信息

智源研究院开源JudgeLM 裁判模型，高效评测大模型