LLaMA架构探秘:GQA模型的注意力机制和KV映射

释放双眼,带上耳机,听听看~!
了解LLaMA架构中GQA模型的注意力机制和KV映射,以及如何提升推理速度的技术细节。

prerequisite: 最强英文开源模型LLaMA架构探秘,从原理到源码

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

引入GQA的主要目的是提升推理速度,这种注意力机制由transformer的Multi-head Attention简化而来,再辅以KV cache的checkpoint机制进一步提速。
LLaMA架构探秘:GQA模型的注意力机制和KV映射
如上图:

  • 左边是transformer原始的Multi-head Attention,它有H个query,key,value,即每个query单独配一个key和value
  • 右边是其他研究者提出的Multi-query Attention,它在多个query共享同一个key和value
  • 中间则是折中的Grouped-query Attention,它将query进行了分组,仅在组内共享同一个key和value

具体而言,Llama2使用了8组KV映射,即GQA-8,实测效果上接近MHA,推理速度上接近MQA,尽可能做到了效果和速度兼得。
LLaMA架构探秘:GQA模型的注意力机制和KV映射
LLaMA架构探秘:GQA模型的注意力机制和KV映射

ai.meta.com/llama/

  • Llama 2: Open Foundation and Fine-Tuned Chat Models
  • 大模型技术实践(二)|关于Llama 2你需要知道的那些事儿
  • GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
  • 大规模预训练语言模型方法与实践,崔一鸣,北京BAAI,2023年8月26日
  • ai.meta.com/blog/code-l…
  • Code Llama: Open Foundation Models for Code
  • 本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
    AI教程

    OpenAI宣布山姆·奥特曼回归担任首席执行官

    2023-11-24 12:29:00

    AI教程

    基于模型微调的多工具组合调用方案

    2023-11-24 12:31:14

    个人中心
    购物车
    优惠劵
    今日签到
    有新私信 私信列表
    搜索