Grouped-head latent Attention - 转转游戏

当前位置：首页 > Grouped-head latent Attention

重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5%

GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学（广州）联合研发，提出了一种高效的大模型框架，显著提升模型性...

2025-08-02

7 0

第一页 1 没有了