research.google · 训练

Google 发布 TurboQuant 压缩算法，KV 缓存内存减少 6 倍速度提升 8 倍

Google 研究团队推出 TurboQuant，一种针对大语言模型键值缓存的新型压缩算法。它通过 PolarQuant 将向量坐标转换为角度与半径表示，省去传统量化常数的存储开销，再以 QJL 的 1 bit 符号量化对残余误差进行零开销修正。在多个数据集上，TurboQuant 实现内存占用降低 6 倍、推理速度提升 8 倍，且不引入精度损失。该方案无需额外训练即可直接部署，为长上下文推理和推荐系统等场景提供了高效的内存管理路径。

域名: research.google
评分: 5 · 重大发布
发布: 2026-03-25

访问项目本体

导读

Google Research 发布 TurboQuant 算法，将 LLM 的键值缓存（KV cache）内存占用减少 6 倍，推理速度提升 8 倍，并且号称零精度损失。KV cache 是 LLM 推理时的主要内存消耗源，特别在长上下文场景下能占用数十 GB。

TurboQuant 的核心思想是把 KV cache 中数值分布的统计特性利用起来——大多数注意力分数集中在少数 key 上，对剩余 key 的精度要求可以大幅降低。算法用 2-bit 量化保留关键信息，配合精心设计的反量化路径在 GPU 上跑得很快。

对推理服务提供商和自部署用户来说，这意味着同样的硬件可以服务 8 倍的 QPS 或者支持 6 倍长的上下文。论文发表在 Google Research 博客和 arXiv，参考实现已在 vLLM 上做了集成。这类底层推理优化对 LLM 服务成本的影响远大于模型架构本身的微调。

原文摘要

标签算法产品名 TurboQuant 分类闭源摘要 TurboQuant是一种新型压缩算法，能够将LLM键值缓存内存减少6倍，速度提升8倍，且无精度损失。其创新方法包括PolarQuant通过角度压缩减少存储开销，以及QJL利用1 bit符号量化进行零开销误差修正。该算法在多个数据集上表现优于传统方法，适用于数据库和推荐系统等场景收录时间 2026/03/25 网址 research.google/blo…r-acct 岗位辅助通用行业通用 2 more properties 谷歌全新压缩算法：TurboQuant，将LLM键值缓存内存减少了6倍，速度提升了8倍，零精度损失，无需训练 AI模型使用高维向量来处理信息，但这些向量非常消耗内存，特别是在KV cache中传统向量量化：量化本身能压缩数据，但需要存储额外的量化常数这些常数通常用全精度存储，每个数额外开销1-2 bit 部分抵消了压缩的意义 TurboQuant的方法： 1. PolarQuant（角度压缩）随机旋转数据后，将X/Y/Z坐标转为"角度+半径" 角度分布范围固定可预测，省掉边界存储的额外开销 2. QJL（1 bit纠错）第一步压缩后存在残余误差 QJL用Johnson-Lindenstrauss变换降维后，以1 bit（+1/-1）符号量化，通过特殊估计器无偏重建，实现零开销误差修…

Back to Latest