Claude・Geminiとの実機比較結果はいかに？！GPT-5.4の概要・性能を解説！

筆者　山城博規 / GMO天秤AI株式会社

GMO天秤AI株式会社代表取締役社長。GMOあおぞらネット銀行でAI・DX推進、金融インフラエンジニアを経て現職。「特定のAIに依存しない」をコンセプトに、複数AIを同時比較できるプラットフォーム「天秤AI byGMO」を運営。法人版「天秤AI Biz」やAIリスキリング事業も展開中。

GPT-5.4は、推論・コーディング・エージェント機能を1モデルに統合したOpenAIの最新フラッグシップ。本記事では公式発表の概要を整理した上で、GPT-5.4・Claude Sonnet 4.6・Gemini 3.1 Proの最新3モデルに同一プロンプトを投げた実機比較の結果を掲載する。GPT-5.2との世代間比較も行った。

結論

GPT-5.4をAPI経由で実際に試した結果、以下の傾向が見えた。

日本語要約は4モデルとも高水準で差が小さい。GPT-5.4は最も簡潔（146字）で指示遵守が正確。Claude Sonnet 4.6は丁寧に文字数まで自己申告する几帳面さ
コード生成でGPT-5.4が頭ひとつ抜けている。状態機械によるCSVパーサー実装、二重の日付バリデーションなど、設計の堅牢さで他モデルとの差が明確
構造化タスクはClaude Sonnet 4.6が最も見やすい。進捗バー、色分け、推奨アクションまで含む高品質なレポート。GPT-5.4は情報量で勝る
GPT-5.2→5.4の進化は構造化タスクで顕著。リスク分析の粒度が上がり、出力が1.7倍に増加。コード生成ではトークン効率が改善
応答速度はGPTが最速、Gemini・Claudeは思考時間が長い分じっくり型

概要

GPT-5.4はOpenAIが2026年3月5日にリリースした新モデル。公式では「professional work向けで最も高性能かつ効率的なfrontier model」と位置づけている。

これまで別々だった推論（oシリーズ）・コーディング（Codex）・エージェント機能が1モデルに統合された。

バリアント（派生モデル）

バリアント	API名	用途
GPT-5.4	gpt-5.4	汎用フロンティアモデル
GPT-5.4 Thinking	ChatGPT内で利用	推論強化版（思考過程を表示）
GPT-5.4 Pro	gpt-5.4-pro	最高性能。高難度タスク向け

利用可能プラットフォーム

ChatGPT、OpenAI API、Codex、Microsoft Foundry（Azure経由）、ChatGPT for Excel / Google Sheets

ChatGPTプラン別の利用範囲

プラン	GPT-5.4	GPT-5.4 Thinking	GPT-5.4 Pro
Free	-	-	-
Plus（月額$20）	利用可	利用可	-
Pro（月額$200）	利用可	利用可	利用可
Team / Enterprise	利用可	利用可	管理者設定による

主なポイント

コンテキスト長がOpenAI史上最大に

最大1.05M（105万）トークンの入力に対応。出力は最大128Kトークン。長大なドキュメントやコードベースを一度に処理できる。

Computer Useにネイティブ対応

Computer Useとは、AIがデスクトップ画面を認識し、マウスやキーボードを操作する機能。GPT-5.4はPlaywright等のツール経由で、ブラウザやアプリを直接操作できる。

実務タスクの強化

スプレッドシートのモデリング、プレゼン作成、ドキュメント作成など、ビジネスの実務タスクで大幅な性能向上。

効率性の改善

Tool Search機能使用時のトークン消費がGPT-5.2比で47%削減。個別の虚偽主張（ハルシネーション）率が33%低減、回答全体にエラーが含まれる確率が18%改善。

Tool Search API

従来のfunction callingでは、利用可能なツールの定義をすべてプロンプトに含める必要があった。Tool Search APIでは、ツール名と短い説明だけをモデルに渡し、必要時にツールの詳細定義を動的に取得する。大量のツールを扱うエージェント開発で、トークン消費とレイテンシを削減できる。

ベンチマーク

ベンチマーク	GPT-5.4	GPT-5.2	Claude Opus 4.6	Gemini 3.1 Pro
OSWorld-Verified（デスクトップ操作）	75.0%	47.3%	-	-
GDPval（知識ワーク）	83.0%	-	78.0%	-
SWE-Bench Pro（ソフトウェア工学）	57.7%	55.6%	-	-
BrowseComp（Web検索）	82.7%	65.8%	-	-
GPQA Diamond（抽象推論）	92.8%	-	77.3%	94.3%
MMMU Pro（視覚推論）	81.2%	-	85.1%	80.5%
スプレッドシートモデリング	87.3%	68.4%	-	-

OSWorld-Verified（デスクトップ操作）では、人間の基準値72.4%を初めて超えた。GPT-5.2の47.3%からの大幅な伸び。

GPQA Diamond（抽象推論）ではGemini 3.1 Proが94.3%でトップ。MMMU Pro（視覚推論）ではClaude Opus 4.6が85.1%で最高値。得意分野はモデルごとに異なる。

※ 表中の「-」は各社がスコアを公表していないことを示す。ベンチマークの選定・測定条件は提供元によって異なるため、横比較は参考程度に。

価格（API）

モデル	Input / 1Mトークン	Output / 1Mトークン	コンテキスト長
GPT-5.4	$2.50	$15.00	1.05M
GPT-5.4 Pro	$30.00	$180.00	1.05M
Claude Sonnet 4.6	$3.00	$15.00	200K
Gemini 3.1 Pro	$2.00	$12.00	2M

GPT-5.4の入力単価は$2.50/1Mトークンで、競合と同等水準。ただし272Kトークン超のプロンプトでは入力が2倍、出力が1.5倍に加算される。272Kトークンは日本語で約20万字、書籍1冊強に相当。

GPT-5.4 ProのAPI価格はInput $30.00 / Output $180.00で、標準版の12倍。ChatGPT Pro（月額$200）でも利用可能。

実機検証: 4モデル出力比較

GPT-5.4の実力を確かめるため、同一プロンプトを4モデルのAPIに投げて出力を比較した。比較対象は GPT-5.2（前世代）、Claude Sonnet 4.6（Anthropic最新）、Gemini 3.1 Pro（Google最新）。プロンプトは3種類。

検証1: 日本語要約

「LLMの進化がソフトウェア開発に与える影響」に関する約400字の文章を、200字以内で要約するよう指示した。

GPT-5.4:

LLMの進化でAIは推論・コード生成・PC操作まで担うエージェント化が進み、開発現場ではAIコーディング支援の利用が2025年に約60%へ拡大。一方で、生成コードの品質・安全性、脆弱性混入、AI依存によるデスキリングが課題化。今後はAIリテラシーを見直し、人間との協働モデル設計が重要となる。

GPT-5.2:

LLMの発展でAIはテキスト生成から推論・コード生成・PC操作まで行うエージェントへ進化し、開発現場ではCopilot等の普及が2025年に約60%に達した。一方、生成コードの品質・安全性、とくに脆弱性混入リスクやAI依存によるスキル低下が課題で、AIリテラシー再定義と人間との協働モデル設計が重要となる。

Claude Sonnet 4.6:

LLMの進化により、AIはテキスト生成を超えたエージェント的存在となり、開発者の約60%がAIコーディングアシスタントを活用するまで普及した。一方で、生成コードへのセキュリティ脆弱性混入リスクや、AI依存による開発者のスキル低下（AIデスキリング）も課題として浮上している。今後はAIと人間の効果的な協働モデルの設計が、技術経営における最重要テーマとなる。（138字）

Gemini 3.1 Pro:

近年、LLMの進化によりAIは高度な推論や操作を行うエージェントとなり、ソフトウェア開発現場ではAIアシスタントが広く普及している。一方で、生成コードのセキュリティリスクなど品質面の懸念や、AI依存に伴う開発者のスキル低下といった課題も浮上している。こうした利点と課題を踏まえ、今後はAIと人間の適切な協働モデルをいかに設計するかが、技術経営における最重要テーマとなっている。（188字）

指標	GPT-5.4	GPT-5.2	Claude Sonnet 4.6	Gemini 3.1 Pro
文字数	146字	153字	138字	188字
200字以内の指示遵守	守った	守った	守った	守った
具体的数値の保持	60%を保持	60%を保持	60%を保持	数値なし
応答時間	2.4秒	2.1秒	3.1秒	16.4秒

4モデルとも高水準。GPT-5.4は最も圧縮率が高く、要点を漏らさない。Claude Sonnet 4.6は文字数を自己カウントして申告する丁寧さが目立つ。Gemini 3.1 Proは文章としての完成度は高いが、「60%」という具体的数値を落としており、事実保持の精度でやや劣る。GPT-5.2→5.4の差は小さく、要約タスクでは世代差は顕著ではない。

検証2: コード生成（TypeScript CSVパーサー）

銀行明細CSV（日付・摘要・入金・出金・残高）をパースする関数の実装を依頼。摘要にカンマが含まれるケースのハンドリングやバリデーションも要件に含めた。

指標	GPT-5.4	GPT-5.2	Claude Sonnet 4.6	Gemini 3.1 Pro
出力トークン数	966	1,301	3,681	1,360
応答時間	11.2秒	14.6秒	43.0秒	37.3秒
CSVパーサー	自前実装（状態機械）	自前実装（状態機械）	自前実装（状態機械）	自前実装（状態機械）
ダブルクォート処理	エスケープ（""→"）対応	エスケープ対応	エスケープ対応	エスケープ対応
バリデーション	列数・日付・金額を個別検証	列数・日付・金額を個別検証	列数・日付・金額を個別検証	列数・日付・金額を個別検証
日付バリデーション	正規表現+Date整合性チェック	正規表現+Date整合性チェック	正規表現+Date整合性チェック	正規表現のみ
型定義	export type + const assertion	interface	interface + ParseResult型	export interface
使用例	あり	あり	あり	なし
テスト	なし	なし	あり（jest）	なし

GPT-5.4はトークン効率が最も良い。GPT-5.2と比べて出力トークンが26%削減されながら、同等の品質を維持している。これは公式発表の「トークン効率47%改善」と整合する。

Claude Sonnet 4.6は出力量が圧倒的に多い（3,681トークン）。ParseResult型の導入、jestテストコードの付属など、最も「本番投入に近い」コードを出力した。ただしその分、応答時間は43秒と最も遅い。

Gemini 3.1 Proは日付バリデーションが正規表現のみ（2月30日を通してしまう可能性）で、4モデル中やや弱い。

検証3: 構造化・推論（Slackメッセージの状況整理）

プロジェクトの進捗に関するSlackメッセージ群から、進捗状況・担当者のタスク・リスク・次のアクションを構造化するよう指示した。

指標	GPT-5.4	GPT-5.2	Claude Sonnet 4.6	Gemini 3.1 Pro
出力トークン数	1,416	895	1,376	768
出力文字数	2,106字	1,269字	1,636字	1,376字
応答時間	17.2秒	12.2秒	26.1秒	18.4秒
構造化の粒度	5セクション	4セクション	4セクション+推奨	4セクション
リスク分析	4つ（具体的）	3つ	3つ（重要度付き）	2つ（重要度付き）
進捗率の推定	なし	なし	「約75〜80%」と明示	なし
視覚的工夫	なし	なし	進捗バー・色分けアイコン	ステータスアイコン
アナリスト所見	なし	なし	コンティンジェンシープラン提案	なし

GPT-5.2→5.4の進化がこのタスクで最も顕著。出力文字数が1.7倍に増加し、リスク分析が3つ→4つに。より深い行間読みが可能になっている。

Claude Sonnet 4.6が最も印象的な出力。進捗バー（████████░░）、色分けアイコン（🔴🟡🟢）、テキストベースの優先順位表、さらに「アナリスト所見」としてコンティンジェンシープランまで提案。指示を超えた付加価値を出している。

Gemini 3.1 Proは簡潔で読みやすいが、リスク分析は2つにとどまり、情報量ではGPT-5.4・Claudeに劣る。

検証まとめ

項目	GPT-5.4	GPT-5.2	Claude Sonnet 4.6	Gemini 3.1 Pro
日本語要約	最も簡潔	GPT-5.4と同等	丁寧（字数申告）	数値を落とす
コード生成	最も効率的	同品質だが冗長	最も実務的（テスト付き）	やや弱い
構造化・推論	情報量最多	標準的	最も見やすい	簡潔
応答速度	速い	速い	遅い	遅い
トークン効率	最小	中	最大	中

GPT-5.2→5.4の進化: トークン効率の改善が最も明確な変化。同等品質のコードを26%少ないトークンで出力する。構造化タスクでは情報の深さが増した。要約タスクでの差は小さい。

3社最新モデル比較: GPT-5.4はバランス型で応答も速い。Claude Sonnet 4.6は時間をかけて最も「実務投入に近い」出力を生成する。Gemini 3.1 Proは簡潔だが、細部の精度でやや劣る場面があった。

所感（GMO天秤AI視点）

AI事業を運営する立場として、GPT-5.4で注目しているのはComputer Useの統合。これまでデスクトップ操作を自動化するには、スクリーンショット取得→画像認識→操作指示という別建てのエージェントを組む必要があった。モデル本体に統合されたことで、「ブラウザで情報を調べて、Excelにまとめて、メールで送る」といった一連の業務フローを単一のAPI呼び出しで設計できるようになる。

実機検証で見えたのは、モデルごとの「性格の違い」。GPT-5.4は速くて効率的、Claudeは丁寧で実務的、Geminiは簡潔。どれが最強かではなく、タスクに応じて使い分ける時代に完全に入っている。

GPT-5.2からの進化は、劇的というよりも着実。トークン効率の改善は、API利用コストに直結するため実務上のインパクトは大きい。

参考リンク

フロンティアモデル競争タイムライン（2026年2-3月）

日付	モデル	提供元	特徴
2/5	Claude Opus 4.6	Anthropic	視覚推論・エンタープライズタスクに強み
2/17	Claude Sonnet 4.6	Anthropic	Opus級性能をSonnet価格帯で
2/19	Gemini 3.1 Pro	Google	16ベンチ中13で最高、2Mコンテキスト
3/5	GPT-5.4	OpenAI	Computer Use・エージェント統合で差別化

2026年2月から3月にかけて、主要3社が立て続けにフラッグシップモデルを投入。競争は一段と加速している。