当前位置:首页 > Grouped-head latent Attention
-
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,提出了一种高效的大模型框架,显著提升模型性...
2025-08-027 0
第一页
1
没有了
GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,提出了一种高效的大模型框架,显著提升模型性...