当前位置:首页 > 游戏心得 > 正文

昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大模型高效适配 MLA

简介MLA(Multi-head Latent Attention 多头潜在注意力架构)凭借低秩压缩 KV 缓存设计,实现长上下文推...

MLA(Multi-head Latent Attention 多头潜在注意力架构)凭借低秩压缩 KV 缓存设计,实现长上下文推理的显存与带宽双重优化,其有效性已在 DeepSeek-V2 等模型中得到了验证。但主流预训练模型如 LLaMA、Qwen 千问等多基于 GQA 构建,企业已投入大量工程优化,复用 MLA 需重训,成本极高。为此,在北京大学 鲲鹏昇腾科教创新卓越中心的算力支持下,北京大学人工智能研究院助理教授张牧涵团队提出 TransMLA 转化框架,实现了无需重训便可将主流模型向 MLA 迁移。

昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大模型高效适配 MLA  第1张

TransMLA 针对 GQA 向 MLA 迁移的核心痛点,实现四大技术模块的精准破局:一是 GQA→MLA 结构映射,破解分组 KV 头与 MLA 单头潜在表示不兼容问题,通过特定的线性变换,将 GQA 分组后的 K、V 向量投影/融合为单一的低秩潜在表示,并配备上投影矩阵保障 KV 信息精准恢复,筑牢迁移基础;二是提出 RoRoPE 技术方案,通过创新适配让位置编码顺畅融入低秩压缩流程,解决了直接对 RoPE 应用 PCA 等通用降维方法可能导致的位置信息损失或模型性能下降问题;三是通过将 RoPE 中相邻频率的旋转维度进行折叠(Folding)与融合,在降低参数量的同时,更高效地集中和保留关键的位置信息,从而维持模型在长序列下的语义理解能力;四是通过均衡 Key 和 Value 矩阵在压缩前的范数分布,提升联合压缩(如 PCA)的数值稳定性,减少信息损失。

在技术落地过程中,昇腾发挥了关键支撑作用。其高效并行计算架构满足结构映射模块的多任务协同处理需求,保障了架构迁移效率;其优化的存储与缓存体系,为 FreqFold 的频率信息处理、BKV-PCA 的范数均衡提供稳定硬件基础,有效提升 KV 压缩的稳定性与资源利用效率,助力 TransMLA 核心技术平稳落地。

经过实验显示 TransMLA 的转换过程性能优势明显,裁剪 LLaMA-2-7B 模型 68.75% 的 KV 缓存后无需训练,核心性能仅轻微损失,在 32K 序列长度、FP16 精度下,基于昇腾平台的推理速度较之于业界主流 GPU 平台有显著提升。依托开放的生态资源,昇腾已推动 TransMLA 稳定支持主流模型部署并将集成至 vLLM/SGLang 等高性能推理框架生态,便于用户部署,大幅降低企业落地适配成本。

TransMLA 与昇腾的协同创新,打通了主流模型与 MLA 架构鸿沟,充分发挥昇腾生态优势。昇腾全链路支持实现 TransMLA「零重训、低损失」目标,保留模型参数优势,降低企业基于昇腾的升级门槛。这一软硬件协同典范,为长上下文推理提供昇腾生态解决方案,推动自主计算与前沿 AI 融合,彰显昇腾核心引领作用,为大模型产业依托自主硬件降本增效提供可行路径。

来源:互联网

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。