ニュース
ノートPCでも動作可能な統合型マルチモーダルモデル「Gemma 4 12B」登場
画像と音声のエンコードは不要
2026年6月4日 13:18
Googleは6月3日、16GBのVRAMまたは統合メモリを搭載しているノートパソコンでも動作可能な統合型マルチモーダルモデル「Gemma 4 12B」を発表した。
「Gemma 4 12B」は、エッジコンピューティングに対応した「E4B」とより高度な「26B Mixture of Experts(MoE)」の中間に位置するモデル。メモリ使用量を抑えながら、様々な機能を実行可能。
同モデルは、ネイティブオーディオ入力を搭載した初のミドルサイズモデルとなっている。これまでのマルチモーダルモデルでは、画像と音声を別々のエンコーダーで変換し、言語モデルに渡すのが一般的だった。ただ、エンコーダーを分割すると遅延やメモリ使用量の増加につながるため、「Gemma 4 12B」では、画像と音声の入力はLLMバックボーンに直接送られ、マルチモーダルエンコーダは不要となっており、音声入力と視覚入力を直接統合するように学習している。
「Gemma 4 12B」は、Apache 2.0ライセンスの下でリリースされ、オープンでアクセスしやすく、開発者エコシステム全体でサポートされている。また、レイテンシを低減するマルチトークン予測(MTP)ドラフト機能を搭載。
ベンチマーク性能は「26B MoE」モデルに迫る結果となっており、多段階推論とエージェント型ワークフローを実現している。








































