ニュース

Google、「Gemma 4」の量子化認識トレーニング(QAT)モデルを公開

Gemma 4 Quantization-Aware Training(QAT)

 Google、「Gemma 4」の量子化認識トレーニング(QAT)モデルを公開した。メモリ要件を大幅に削減し、デバイス上でのパフォーマンスを最大限に引き出すモデルとなっている。

 Googleは2か月前にGemma 4をリリースして以降、推論速度を向上させるマルチトークン予測(MTP)の導入や、モデル間の性能差を埋める12Bモデルの追加など、継続的な機能拡張を行なってきた。今回公開されたのは、一般的な「Q4_0」量子化フォーマットに加え、モバイル用途に特化した新しい量子化フォーマットとなる。

 量子化対応トレーニング(QAT)で最適化された新しいチェックポイントがリリースされたことにより、Gemma 4の効率がさらに向上。日常的に使用するエッジデバイスやコンシューマー向けGPUでローカルにモデルを実行できるようになる。

 QATは、トレーニング中に量子化をシミュレートすることで、モデル圧縮時の画質劣化を最小限に抑える。今回のリリースには、広く利用されているQ4_0量子化フォーマットに加え、モバイル用途に特化した新たな量子化フォーマットのQATチェックポイントが含まれている。

 このモバイルフォーマットを採用することで、「Gemma 4 E2B」のメモリ容量を1GBに削減。これらの改善により、Gemma 4に期待される機能と品質を維持しながら、メモリ要件を大幅に削減可能となる。

 量子化は、メモリ使用量を削減しつつデコード速度を向上させられる、コンシューマー向けハードウェア上でモデルを実行するための重要な技術。しかし、標準的なトレーニング後量子化(PTQ)では、パフォーマンスが低下することがよくある。

 QATは、トレーニング後にモデルを単純に量子化するのではなく、量子化プロセスをトレーニングに直接統合する。PTQは既に品質維持に効果的だが、QATの結果は、標準的なPTQのベースラインと比較して、全体的に高い品質を保つ。

 同社は、このQATレシピを広く普及しているQ4_0フォーマットに適用し、すべてのモデルのパフォーマンスを最大化。エッジモデル(E2BおよびE4B)に関しては、モバイル端末に特化した量子化スキームを用いて、アプローチを見直した。

モデルを読み込むために必要なVRAM容量を示す、おおよそのメモリ要件

 標準的な圧縮フォーマットは、モバイルプロセッサで効率的に実行するのが難しい場合が多い。Gemma 4がモバイル端末でスムーズに動作するように、エッジハードウェア向けに設計された独自のモバイル量子化スキームを開発した。

  • 静的アクティベーション:通常、モデルはデータをリアルタイムでスケーリングする方法を計算するために処理能力を浪費する。同社は、トレーニング中にこれらの設定を事前に計算することで、モバイルチップの負荷を軽減し、応答速度を向上させている。
  • チャネルごとの量子化:モバイルアクセラレータの設計に合わせて圧縮データを構造化することで、スマートフォンは低速な回避策を必要とせずに、ネイティブに計算を実行できる。
  • ターゲットを絞った2ビット量子化:トークンを生成するモデルの特定部分を2ビットに圧縮しつつ、コアとなる推論層はより高い精度を保った。これにより、モデルの知能を損なうことなくストレージ容量を節約可能。
  • 埋め込みとKVキャッシュの最適化:モデルの語彙リストと短期記憶領域に圧縮を集中させたことにより、アクティブメモリ使用量が大幅に削減され、容量不足を気にすることなく長時間のチャットが可能となる。

 同社の音声エンコーダーと画像エンコーダーは多くのユースケースで不要なため、必要なモダリティのみを導入することで、メモリ使用量をさらに最適化できる。「Gemma 4 E2B」のテキストのみモデル(レイヤーごとの埋め込みなし)では、メモリは1GB未満しか必要ないとしている。