research.google · 训练
Google 发布 TurboQuant 压缩算法,KV 缓存内存减少 6 倍速度提升 8 倍
Google 研究团队推出 TurboQuant,一种针对大语言模型键值缓存的新型压缩算法。它通过 PolarQuant 将向量坐标转换为角度与半径表示,省去传统量化常数的存储开销,再以 QJL 的 1 bit 符号量化对残余误差进行零开销修正。在多个数据集上,TurboQuant 实现内存占用降低 6 倍、推理速度提升 8 倍,且不引入精度损失。该方案无需额外训练即可直接部署,为长上下文推理和推荐系统等场景提供了高效的内存管理路径。
- 域名
research.google- 评分
- 5 · 重大发布
- 发布
- 2026-03-25
导读
Google Research 发布 TurboQuant 算法,将 LLM 的键值缓存(KV cache)内存占用减少 6 倍,推理速度提升 8 倍,并且号称零精度损失。KV cache 是 LLM 推理时的主要内存消耗源, 特别在长上下文场景下能占用数十 GB。
TurboQuant 的核心思想是把 KV cache 中数值分布的统计特性利用起来——大多数注意力分 数集中在少数 key 上,对剩余 key 的精度要求可以大幅降低。算法用 2-bit 量化保留关键 信息,配合精心设计的反量化路径在 GPU 上跑得很快。
对推理服务提供商和自部署用户来说,这意味着同样的硬件可以服务 8 倍的 QPS 或者支持 6 倍长的上下文。论文发表在 Google Research 博客和 arXiv,参考实现已在 vLLM 上做了 集成。这类底层推理优化对 LLM 服务成本的影响远大于模型架构本身的微调。
原文摘要
标签 算法 产品名 TurboQuant 分类 闭源 摘要 TurboQuant是一种新型压缩算法,能够将LLM键值缓存内存减少6倍,速度提升8倍,且无精度损失。其创新方法包括PolarQuant通过角度压缩减少存储开销,以及QJL利用1 bit符号量化进行零开销误差修正。该算法在多个数据集上表现优于传统方法,适用于数据库和推荐系统等场景 收录时间 2026/03/25 网址 research.google/blo…r-acct 岗位辅助 通用 行业 通用 2 more properties 谷歌全新压缩算法:TurboQuant,将LLM键值缓存内存减少了6倍,速度提升了8倍,零精度损失,无需训练 AI模型使用高维向量来处理信息,但这些向量非常消耗内存,特别是在KV cache中 传统向量量化: 量化本身能压缩数据,但需要存储额外的量化常数 这些常数通常用全精度存储,每个数额外开销1-2 bit 部分抵消了压缩的意义 TurboQuant的方法: 1. PolarQuant(角度压缩) 随机旋转数据后,将X/Y/Z坐标转为"角度+半径" 角度分布范围固定可预测,省掉边界存储的额外开销 2. QJL(1 bit纠错) 第一步压缩后存在残余误差 QJL用Johnson-Lindenstrauss变换降维后,以1 bit(+1/-1)符号量化,通过特殊估计器无偏重建,实现零开销误差修…
