Google TurboQuant:3bit量子化KVキャッシュは精度の損失なく、推論速度は最大8倍向上

BlockBeatNews

1M AI Newsによる監測によると、Google研究所は量子圧縮アルゴリズムTurboQuantを発表しました。これにより、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減します。訓練や微調整は不要で、モデルの精度を損なうこともありません。4ビットモードでは、NVIDIA H100 GPU上での注意力計算速度が32ビットの未量子化基準と比べて最大8倍向上します。

研究チームはLongBench、Needle In A Haystack、ZeroSCROLLSなどの長いコンテキストベンチマークでGemmaとMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の性能を示しました。このアルゴリズムは二つのサブアルゴリズムで構成されています。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残余誤差を補正します。

この研究はGoogle研究所のAmir Zandiehと副社長兼Google FellowのVahab Mirrokniが主導し、韓国KAISTとニューヨーク大学と協力して行われ、ICLR 2026で発表される予定です。Googleはこの技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし