1M AI Newsによる監測によると、Google研究所は量子圧縮アルゴリズムTurboQuantを発表しました。これにより、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減します。訓練や微調整は不要で、モデルの精度を損なうこともありません。4ビットモードでは、NVIDIA H100 GPU上での注意力計算速度が32ビットの未量子化基準と比べて最大8倍向上します。
研究チームはLongBench、Needle In A Haystack、ZeroSCROLLSなどの長いコンテキストベンチマークでGemmaとMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の性能を示しました。このアルゴリズムは二つのサブアルゴリズムで構成されています。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残余誤差を補正します。
この研究はGoogle研究所のAmir Zandiehと副社長兼Google FellowのVahab Mirrokniが主導し、韓国KAISTとニューヨーク大学と協力して行われ、ICLR 2026で発表される予定です。Googleはこの技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。