Gemma 4でオンデバイスAIエージェントを構築する Google AI Edgeの全貌

筆者　山城博規 / GMO天秤AI株式会社

GMO天秤AI株式会社代表取締役社長。GMOあおぞらネット銀行でAI・DX推進、金融インフラエンジニアを経て現職。「特定のAIに依存しない」をコンセプトに、複数AIを同時比較できるプラットフォーム「天秤AI byGMO」を運営。法人版「天秤AI Biz」やAIリスキリング事業も展開中。

Google DeepMindが2026年4月2日にリリースしたGemma 4はエッジデバイス向けを含む幅広い用途に対応したオープンモデルで、E2B・E4Bモデルはオンデバイスでのエージェント動作に最適化されている。Apache 2.0ライセンスで公開されており、商用利用にも制約がない。

これまでオンデバイスAIといえばチャットボットや簡単な分類タスクが中心だった。Gemma 4はそこから一歩踏み込み、複数ステップの計画立案、自律的なアクション実行、オフラインでのコード生成、さらに音声・映像の処理までをデバイス単体でこなす。ファインチューニングなしでこれらが動く点が従来のオンデバイスモデルとの大きな違いになる。対応言語は140以上。

Google AI Edge Galleryと「Agent Skills」

Gemma 4の能力を手軽に試せるのがGoogle AI Edge Galleryだ。iOSとAndroidの両方で利用できるアプリで、デバイス上で完結するAI体験を構築・実験できる。

今回のリリースで追加されたのが「Agent Skills」という機能になる。マルチステップの自律的なエージェントワークフローを、すべてオンデバイスで実行する仕組みだ。

Agent Skillsでできることは4つに整理される。

1つ目は知識ベースの拡張。Gemma 4の学習データに含まれない情報にアクセスする能力で、たとえばWikipediaを検索して回答を返すスキルを構築できる。

2つ目はリッチコンテンツの生成。文章や動画を要約してフラッシュカードにしたり、データをインタラクティブなグラフに変換したりする用途に使える。ユーザーの音声入力から睡眠時間と気分のトレンドをグラフ化するデモが公開されている。

3つ目は他モデルとの連携。テキスト読み上げ、画像生成、音楽合成といった別のモデルと組み合わせることで、Gemma 4単体では難しかった処理を実現する。写真に合ったBGMを自動で付けるデモが紹介されている。

4つ目はエンドツーエンドの体験構築。複数のアプリを行き来することなく、Gemma 4との会話だけで複雑なワークフローを完結させる。動物の鳴き声を説明して再生するアプリが実例として示されている。

LiteRT-LMによるクロスデバイス展開

Google AI Edge Galleryはアプリとしての実験環境だが、自社アプリに組み込む場合やより幅広いデバイスに展開する場合にはLiteRT-LMを使う。

LiteRT-LMはLiteRTの上にGenAI向けライブラリを追加したもので、高性能ライブラリのXNNPackとML Driftを基盤としている。Gemma 4向けに3つの機能が追加された。

メモリフットプリントの最小化。2ビット・4ビットの重み量子化とメモリマップドなレイヤー別エンベディングにより、Gemma 4 E2Bモデルは一部デバイスで1.5GB未満のメモリで動作する。

制約付きデコーディング。構造化された予測可能な出力を毎回得られる仕組みで、ツール呼び出しスクリプトやAIアプリの本番環境での信頼性を担保する。

動的コンテキスト。CPUとGPUの両方で単一モデルを柔軟に扱え、Gemma 4の128Kコンテキストウィンドウをフル活用できる。エージェント的なユースケースに必要な長いコンテキストをサポートするため、GPU最適化により4,000トークンの入力を2つのスキルにまたがって3秒未満で処理する。

パフォーマンスとデバイス対応

具体的な性能数値も公開されている。Raspberry Pi 5のCPU上では、プリフィル133トークン/秒、デコード7.6トークン/秒。Qualcomm Dragonwing IQ8のNPUを使うと、プリフィル3,700トークン/秒、デコード31トークン/秒まで向上する。

対応プラットフォームは以下の通り。

モバイルではAndroidとiOSでCPU/GPUサポートがある。AndroidではAICoreを通じてシステムワイドにGemma 4の最適化モデルにアクセスできる。

デスクトップとWebではWindows、Linux、macOS（Metal経由）で動作し、WebGPUによるブラウザ上のネイティブ実行にも対応する。

IoT・ロボティクス分野ではRaspberry Pi 5とQualcomm Dragonwing IQ8（NPUアクセラレーション付き）で動作する。新しいPythonパッケージとCLIツールも公開され、コードを書かずにターミナルからGemma 4を試せる。

開発者にとっての意味

Gemma 4のリリースで変わるのは、AIエージェントの実行場所の選択肢だ。クラウドに依存せず、ユーザーの端末上でマルチステップのエージェントワークフローを動かせるようになる。プライバシーの確保、レイテンシの削減、オフライン対応といった恩恵がある。

Apache 2.0ライセンスという点も重要で、商用プロダクトへの組み込みに追加のライセンス交渉が不要になる。EE2B（20億パラメータ）とE4B（40億パラメータ）の2サイズが用意されており、デバイスの性能に応じて選べる。

Google AI Edge GalleryのAgent Skillsガイドか、LiteRT-LMのドキュメントから開発を始められる。

出典: Google Developers Blog「Bring state-of-the-art agentic skills to the edge with Gemma 4」（2026年4月2日公開）

https://developers.googleblog.com/bring-state-of-the-art-agentic-skills-to-the-edge-with-gemma-4/

Gemma 4でオンデバイスAIエージェントを構築する Google AI Edgeの全貌

Google AI Edge Galleryと「Agent Skills」

LiteRT-LMによるクロスデバイス展開

パフォーマンスとデバイス対応

開発者にとっての意味

Googleが無償公開した医療AIオープンモデル「MedGemma」の実力とは？世界850を超えるチームが検証した活用の現在地

Gemini UltraとProの違いを徹底比較｜Deep Think・動画生成・Antigravityを使い込んで検証

Anthropic Academy完全ガイド｜無料で学べるClaude公式コースの始め方と日本語での学習方法

【2026年版】Manus完全攻略ガイド！登録方法から便利な使い方まで徹底解説

【2026年6月最新】Genspark完全攻略ガイド！登録方法から便利な使い方まで徹底解説

【NotebookLM】周りと差を付けるプロンプト7選【2026年最新】

Claude Codeの公式スキル17個を全解説 — パワポもPDFもExcelも、コマンド1つで生成できる