TurboQuant模型 - Google Research无损低比特KV Cache量化算法

TurboQuant是由Google Research提出的向量量化算法,专为大模型KV Cache极致压缩设计。它可将32-bit浮点KV Cache量化至3-bit,实现显存占用降低6倍、推理速度提升8倍,且全程保持精度零损失。

AI向量量化算法Google Research谷歌开源