TurboQuant是由Google Research提出的向量量化算法,专为大模型KV Cache极致压缩设计。它可将32-bit浮点KV Cache量化至3-bit,实现显存占用降低6倍、推理速度提升8倍,且全程保持精度零损失。