生成AI

Gemini Embedding 2を実際に試してみた|テキスト・画像を同じベクトル空間で検索

-

-

Gemini Embedding 2を実際に試してみた|テキスト・画像を同じベクトル空間で検索

筆者 山城 博規 / GMO天秤AI株式会社

GMO天秤AI株式会社 代表取締役社長。GMOあおぞらネット銀行でAI・DX推進、金融インフラエンジニアを経て現職。「特定のAIに依存しない」をコンセプトに、複数AIを同時比較できるプラットフォーム「天秤AI byGMO」を運営。法人版「天秤AI Biz」やAIリスキリング事業も展開中。


2026年3月10日、Googleが「Gemini Embedding 2」を公開プレビューとしてリリースした。テキスト・画像・音声・動画・PDFを同じベクトル空間(データを数値の配列として表現した多次元の座標系)に埋め込める、初の"ネイティブマルチモーダル"エンベディングモデル(複数の種類のデータを統一的に数値化するAIモデル)だ。本記事では公式情報をまとめた上で、実際にAPIを叩いて5つの実験を行い、その実力を検証する。

概要

Gemini Embedding 2 とは

Google公式ブログによると、Gemini Embedding 2はGoogleが提供する初のネイティブマルチモーダル埋め込みモデルだ。従来のエンベディングモデルがテキスト専用だったのに対し、本モデルはテキスト・画像・音声・動画・PDFを1つのベクトル空間に統一的にマッピングできる。

これにより、例えば「AIコーディング」というテキストから関連する画像を検索したり、画像から類似テキストを見つけるといったクロスモーダル検索(異なる種類のデータをまたいで類似コンテンツを探す検索手法)が、単一モデルで実現できる。

スペック

Vertex AIドキュメントに記載されている主な仕様は以下の通り。


項目詳細
モデルIDgemini-embedding-2-preview
ステータス公開プレビュー
出力次元最大3,072次元(MRL対応で任意に縮小可)
最大入力8,192トークン
対応言語100言語以上
リージョンus-central1

入力モダリティごとの制限は以下の通り。


モダリティ制限
テキスト8,192トークン
画像最大6ファイル/リクエスト(PNG, JPEG)
PDF最大1ファイル、6ページ以内
動画最大1ファイル、80秒(音声付き)/ 120秒(音声なし)
音声最大1ファイル、80秒(MP3, WAV)

料金

Gemini API料金ページによると、無料枠が用意されている。


入力タイプ無料枠有料(/1Mトークン)バッチ(50%オフ)
テキスト無料$0.20$0.10
画像無料$0.45($0.00012/枚)$0.225
音声無料$6.50($0.00016/秒)$3.25
動画無料$12.00($0.00079/フレーム)$6.00

個人での実験や小規模なPoC(概念実証:アイデアの実現可能性を検証するための試作)なら無料枠で十分まかなえる。今回の実験もすべて無料枠内で完了した。

主な特徴

Matryoshka Representation Learning(MRL) — デフォルトの3,072次元から、256次元まで任意に圧縮可能。ストレージやレイテンシ(応答遅延)とのトレードオフに応じて調整できる。

タスクタイプ指定RETRIEVAL_QUERYRETRIEVAL_DOCUMENT などを指定して、用途に応じた最適化が可能。

ドキュメントOCR — PDF内の文字を自動認識して埋め込む。

APIの叩き方


Google AI StudioでAPIキーを発行すれば、REST APIとして fetch やcurlで直接叩ける。SDK(開発キット)も不要。


POST https://generativelanguage.googleapis.com/v1beta/models/gemini-embedding-2-preview:embedContent?key=API_KEY

{
"content": {
"parts": [{ "text": "埋め込みたいテキスト" }]
}
}



レスポンスの embedding.values に浮動小数点の配列(ベクトル)が返る。

検証:5つの実験で実力を測る

実験環境

  • 実行環境: macOS上のNode.js(Claude Codeから直接実行)
  • API: Gemini Developer API(REST、SDKなし)
  • コスト: 全実験を通じて無料枠内

素材

テキストとして「AIコーディング」「経営・スタートアップ」「料理レシピ」の3テーマを用意し、それぞれ短文(30〜44字)、段落(217〜274字)、長文(560〜579字)の3サイズ、計9本を準備した。

画像はGeminiの画像生成モデルで5枚を生成した。AIコーディングのテーマで2枚(モニター構図とノートPC構図)、スタートアップ会議、料理シーン、そしてコントロール群として富士山の風景。

テーマA: AIコーディング(2枚)


モニター構図ノートPC構図
AIコーディングをイメージしたモニター画面の画像

テーマA代表

AIコーディングをイメージしたノートPCの画像

同テーマ別構図(類似度検証用)

テーマB・C・コントロール(各1枚)


スタートアップ会議料理(だし取り)富士山と桜
スタートアップ企業の会議風景

テーマB代表

和食の出汁を取っている調理風景

テーマC代表

富士山と桜の日本らしい風景

コントロール群(全テーマと無関係)

実験1: テキスト埋め込みの基本動作

目的: 日本語テキスト9本を埋め込み、次元数と応答時間を確認する。

結果:


テキスト文字数次元数応答時間
AIコーディング(短文)42字3,072606ms
AIコーディング(段落)274字3,072509ms
AIコーディング(長文)579字3,072481ms
スタートアップ(短文)44字3,072550ms
スタートアップ(段落)243字3,072357ms
スタートアップ(長文)565字3,072743ms
料理レシピ(短文)34字3,072566ms
料理レシピ(段落)217字3,072531ms
料理レシピ(長文)560字3,072539ms

考察: 全てのテキストが3,072次元のベクトルとして返される。応答時間は350〜750ms程度で、文字数による大きな差は見られなかった。日本語も問題なく処理される。

実験2: テキスト間の類似度マトリクス

目的: 9本のテキスト全ペア(36組)のコサイン類似度(ベクトル間の角度から算出する類似性の指標。1に近いほど似ている)を算出し、意味の近さを正しく捉えているか検証する。

結果(類似度 TOP 5):


ペア類似度
AIコーディング(段落) ↔ AIコーディング(長文)0.8935
スタートアップ(段落) ↔ スタートアップ(長文)0.8420
スタートアップ(短文) ↔ スタートアップ(段落)0.8173
スタートアップ(短文) ↔ スタートアップ(長文)0.8062
AIコーディング(短文) ↔ AIコーディング(段落)0.7723

結果(類似度 BOTTOM 5):


ペア類似度
AIコーディング(長文) ↔ 料理レシピ(短文)0.4783
AIコーディング(短文) ↔ 料理レシピ(段落)0.4719
スタートアップ(長文) ↔ 料理レシピ(短文)0.4607
スタートアップ(短文) ↔ 料理レシピ(短文)0.4567
AIコーディング(短文) ↔ 料理レシピ(長文)0.4479

考察: 同テーマ内のテキストは長さが違っても0.77〜0.89と高い類似度を示し、異テーマ(特にAI/スタートアップ ↔ 料理)は0.44〜0.48に落ちる。表現や長さではなく、意味の近さをしっかり捉えていることがわかる。短文同士でもテーマが同じなら高い類似度が出る点は、検索クエリ(短い)→ ドキュメント(長い)の検索ユースケースで心強い。

天秤AI byGMO

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!

無料で天秤AI by GMOを試す

実験3: 次元調整(MRL)で精度は保たれるか

目的: 出力次元を256/768/1,536/3,072と変えたとき、類似度の順位関係が維持されるかを検証する。

結果:


次元数平均応答時間AI ↔ StartupAI ↔ CookingStartup ↔ Cooking
256461ms0.59810.46930.4885
768460ms0.59920.48970.4581
1,536506ms0.59490.48200.4527
3,072511ms0.60280.48100.4567

考察: 全ての次元数で AI ↔ Startup > AI ↔ Cooking という順位関係が保たれた。256次元に圧縮しても類似度の大小関係は崩れておらず、MRLが正しく機能している。256次元なら3,072次元に対してストレージが12分の1になるにもかかわらず、実用上ほぼ遜色ない判別ができる。

応答時間にも次元数による有意な差は見られず、次元の縮小はサーバー側の計算量にはほぼ影響しないようだ。

実験4: クロスモーダル — テキストで画像を検索できるか

目的: テキストと画像を同じベクトル空間に埋め込み、テキストクエリで正しい画像を1位に持ってこられるか検証する。この実験がGemini Embedding 2の最大の売りであるマルチモーダル統一空間の真価を問うものだ。

画像の埋め込み

まず5枚の画像を埋め込んだ。テキストに比べて画像は処理が重い。


画像応答時間
AIコーディング(モニター)2,249ms
AIコーディング(ノートPC)1,295ms
スタートアップ会議1,404ms
料理(だし取り)1,329ms
富士山と桜1,438ms

テキスト埋め込みが500ms前後だったのに対し、画像は1,300〜2,200msと2〜4倍の時間がかかる。

画像同士の類似度

最も類似度が高かったペアは、同テーマ(AIコーディング)の2枚だ。構図は全く異なるが、「プログラミングの画面」という意味を捉えている。


類似度 0.80 — 同テーマの2枚が最も近い

AIコーディング(モニター構図)の画像 AIコーディング(ノートPC構図)の画像

全ペアの類似度は以下の通り。


ペア類似度
AIコーディング(モニター) ↔ AIコーディング(ノートPC)0.8021
AIコーディング(ノートPC) ↔ スタートアップ会議0.6960
AIコーディング(ノートPC) ↔ 料理(だし取り)0.6758
料理(だし取り) ↔ 富士山と桜0.6639
AIコーディング(モニター) ↔ 料理(だし取り)0.6569
AIコーディング(モニター) ↔ 富士山と桜0.6443
AIコーディング(ノートPC) ↔ 富士山と桜0.6365
AIコーディング(モニター) ↔ スタートアップ会議0.6250
スタートアップ会議 ↔ 料理(だし取り)0.6014
スタートアップ会議 ↔ 富士山と桜0.5985

同テーマ(AIコーディング)の2枚が0.80と最も高く、構図が違っても「プログラミングの画像」という意味を捉えている。異テーマ間は0.60〜0.70に分布し、意味的な距離が反映されている。

テキスト→画像 検索ランキング

各テーマの短文をクエリとして、5枚の画像を類似度順にランキングした。


クエリ: 「AIエージェントが自律的にコードを書いて、テストして、デプロイまでこなす時代が来た。」


1位にヒットしたAIコーディング(モニター)の画像

1位にヒットした画像


順位画像類似度
1位AIコーディング(モニター)0.3713
2位AIコーディング(ノートPC)0.3313
3位スタートアップ会議0.2557
4位料理(だし取り)0.2552
5位富士山と桜0.2389

クエリ: 「シード期のスタートアップにとって、限られたリソースでPMFを達成することが最優先課題だ。」


1位にヒットしたスタートアップ会議の画像

1位にヒットした画像


順位画像類似度
1位スタートアップ会議0.3157
2位AIコーディング(モニター)0.2760
3位料理(だし取り)0.2612
4位AIコーディング(ノートPC)0.2604
5位富士山と桜0.1902

クエリ: 「鶏もも肉を一口大に切り、塩コショウで下味をつけてから片栗粉をまぶす。」


1位にヒットした料理(だし取り)の画像

1位にヒットした画像


順位画像類似度
1位料理(だし取り)0.2971
2位スタートアップ会議0.2393
3位AIコーディング(ノートPC)0.2376
4位AIコーディング(モニター)0.2350
5位富士山と桜0.2197

考察: 3テーマ全てで、対応する正しい画像が1位にランキングされた。 これはかなり印象的な結果だ。

ただし注目すべき点もある。クロスモーダルの類似度(0.19〜0.37)は、テキスト同士(0.44〜0.89)と比べて全体的に低い。これはテキストと画像という異なるモダリティ間の「距離感」が、同モダリティ内の距離感とは異なることを意味している。実用上は、テキスト→画像検索とテキスト→テキスト検索で異なる閾値を設定する必要があるだろう。

また、AIコーディングのクエリに対してAI画像2枚が1位・2位に並んだ点は、同テーマの画像バリエーションを正しく認識できている証拠だ。

実験5: タスクタイプ指定の効果

目的: RETRIEVAL_QUERY / RETRIEVAL_DOCUMENT というタスクタイプを指定した場合と指定しなかった場合で、検索精度に差が出るか検証する。

短文のAIコーディングテキストをクエリ、3テーマの長文をドキュメントとして類似度を比較した。

結果:


設定AI(long)Startup(long)料理(long)
指定なし0.75230.54080.4479
RETRIEVAL_QUERY / DOCUMENT0.75230.54080.4479

考察: 今回のテストでは完全に同一の結果となった。タスクタイプ指定による精度差は確認できなかった。

これはプレビュー版ゆえの可能性もあるし、タスクタイプの効果がより大規模なデータセットや特定の検索パターンで発揮される可能性もある。GA(正式版)リリース時に再検証したいポイントだ。

まとめ


観点評価
日本語テキスト埋め込み問題なく動作。意味の類似度も正確
応答速度テキスト: 350〜750ms、画像: 1,300〜2,200ms
次元調整(MRL)256次元でも順位関係を維持。実用に耐える
クロスモーダル検索3テーマ全てで正しい画像が1位。 最大の売りは本物
タスクタイプ指定今回は効果確認できず。要再検証
料金無料枠あり。本記事の全実験が無料で完了

Gemini Embedding 2の最大の価値は、やはりマルチモーダル統一空間だ。テキスト・画像・音声・動画を1つのベクトル空間で扱えることで、「テキストで画像を検索する」「画像で関連ドキュメントを探す」といったユースケースが、複数モデルを組み合わせることなく実現できる。

プレビュー版のため本番利用にはまだ慎重さが必要だが、RAG(検索拡張生成:外部データを検索して回答生成に活用する手法)やナレッジベースの構築を検討しているなら、今のうちに触っておく価値は十分にある。

この記事を共有:
  • facebook
  • line
  • twitter
天秤AI by GMOイメージ

最新のAIが勢ぞろい! 天秤AI by GMOなら、最大6つのAIを同時に試せる!

無料天秤AI by GMOを試す