V3 通过多头潜在注意力(Multi-Head Latent Attention, MLA)机制提升推理效率。MLA 方法借助低秩键值联合压缩,可使 MLA 的性能优于 MHA,但所需的 KV 缓存量显著减少,从而减少模型所需算力。在自回归生成(如文本生成)过程中,模型需逐步生成每个 token,并缓存所有历史 token 的 Key 和 Value 矩阵以供后续计算。若以图书馆管理作类比,图书馆有多个独立研究小组(每个小组对应一个“头”),MHA 方法中每个小组需要查阅完整的书籍库(原始 Key 和Value)。此方法的优点是每个小组能深度研究不同领域(捕捉多样化信息),成果全面。但缺点是 1)存储压力大,每个小组都要复制一套完整书籍(KV 缓存占用高);2)空间浪费,图书馆需要为每个小组开辟独立书架(显存爆炸)。MLA 类似在图书馆引入智能压缩技术,将书籍转换为精华摘要(低秩压缩),每个小组(头)根据摘要展开研究,必要时还原细节,这样可以在降低 KV 缓存的同时维持模型性能。