LLaMA架构探秘：GQA模型的注意力机制和KV映射

AI教程
23年11月24日
编辑

从流域到海域

释放双眼，带上耳机，听听看~！

了解LLaMA架构中GQA模型的注意力机制和KV映射，以及如何提升推理速度的技术细节。

prerequisite: 最强英文开源模型LLaMA架构探秘，从原理到源码

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

引入GQA的主要目的是提升推理速度，这种注意力机制由transformer的Multi-head Attention简化而来，再辅以KV cache的checkpoint机制进一步提速。
LLaMA架构探秘：GQA模型的注意力机制和KV映射
如上图：

左边是transformer原始的Multi-head Attention，它有H个query，key，value，即每个query单独配一个key和value
右边是其他研究者提出的Multi-query Attention，它在多个query共享同一个key和value
中间则是折中的Grouped-query Attention，它将query进行了分组，仅在组内共享同一个key和value

具体而言，Llama2使用了8组KV映射，即GQA-8，实测效果上接近MHA，推理速度上接近MQA，尽可能做到了效果和速度兼得。
LLaMA架构探秘：GQA模型的注意力机制和KV映射

ai.meta.com/llama/

Llama 2: Open Foundation and Fine-Tuned Chat Models

大模型技术实践（二）｜关于Llama 2你需要知道的那些事儿

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

大规模预训练语言模型方法与实践，崔一鸣，北京BAAI，2023年8月26日

ai.meta.com/blog/code-l…

Code Llama: Open Foundation Models for Code

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

AI model optimization Llama 2 变压器多重查询注意力智能问答

OpenAI宣布山姆·奥特曼回归担任首席执行官

2023-11-24 12:29:00

基于模型微调的多工具组合调用方案

2023-11-24 12:31:14

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部