ChatGPT

Claude・Geminiとの実機比較結果はいかに?!GPT-5.4の概要・性能を解説!

-

-

Claude・Geminiとの実機比較結果はいかに?!GPT-5.4の概要・性能を解説!

筆者 山城 博規 / GMO天秤AI株式会社

GMO天秤AI株式会社 代表取締役社長。GMOあおぞらネット銀行でAI・DX推進、金融インフラエンジニアを経て現職。「特定のAIに依存しない」をコンセプトに、複数AIを同時比較できるプラットフォーム「天秤AI byGMO」を運営。法人版「天秤AI Biz」やAIリスキリング事業も展開中。


GPT-5.4は、推論・コーディング・エージェント機能を1モデルに統合したOpenAIの最新フラッグシップ。本記事では公式発表の概要を整理した上で、GPT-5.4・Claude Sonnet 4.6・Gemini 3.1 Proの最新3モデルに同一プロンプトを投げた実機比較の結果を掲載する。GPT-5.2との世代間比較も行った。

結論

GPT-5.4をAPI経由で実際に試した結果、以下の傾向が見えた。

  • 日本語要約は4モデルとも高水準で差が小さい。GPT-5.4は最も簡潔(146字)で指示遵守が正確。Claude Sonnet 4.6は丁寧に文字数まで自己申告する几帳面さ
  • コード生成でGPT-5.4が頭ひとつ抜けている。状態機械によるCSVパーサー実装、二重の日付バリデーションなど、設計の堅牢さで他モデルとの差が明確
  • 構造化タスクはClaude Sonnet 4.6が最も見やすい。進捗バー、色分け、推奨アクションまで含む高品質なレポート。GPT-5.4は情報量で勝る
  • GPT-5.2→5.4の進化は構造化タスクで顕著。リスク分析の粒度が上がり、出力が1.7倍に増加。コード生成ではトークン効率が改善
  • 応答速度はGPTが最速、Gemini・Claudeは思考時間が長い分じっくり型

概要

GPT-5.4はOpenAIが2026年3月5日にリリースした新モデル。公式では「professional work向けで最も高性能かつ効率的なfrontier model」と位置づけている。

これまで別々だった推論(oシリーズ)・コーディング(Codex)・エージェント機能が1モデルに統合された。


バリアント(派生モデル)

バリアント API名 用途
GPT-5.4 gpt-5.4 汎用フロンティアモデル
GPT-5.4 Thinking ChatGPT内で利用 推論強化版(思考過程を表示)
GPT-5.4 Pro gpt-5.4-pro 最高性能。高難度タスク向け

利用可能プラットフォーム

ChatGPT、OpenAI API、Codex、Microsoft Foundry(Azure経由)、ChatGPT for Excel / Google Sheets

ChatGPTプラン別の利用範囲

プラン GPT-5.4 GPT-5.4 Thinking GPT-5.4 Pro
Free - - -
Plus(月額$20) 利用可 利用可 -
Pro(月額$200) 利用可 利用可 利用可
Team / Enterprise 利用可 利用可 管理者設定による

主なポイント

コンテキスト長がOpenAI史上最大に

最大1.05M(105万)トークンの入力に対応。出力は最大128Kトークン。長大なドキュメントやコードベースを一度に処理できる。

Computer Useにネイティブ対応

Computer Useとは、AIがデスクトップ画面を認識し、マウスやキーボードを操作する機能。GPT-5.4はPlaywright等のツール経由で、ブラウザやアプリを直接操作できる。

実務タスクの強化

スプレッドシートのモデリング、プレゼン作成、ドキュメント作成など、ビジネスの実務タスクで大幅な性能向上。

効率性の改善

Tool Search機能使用時のトークン消費がGPT-5.2比で47%削減。個別の虚偽主張(ハルシネーション)率が33%低減、回答全体にエラーが含まれる確率が18%改善。

Tool Search API

従来のfunction callingでは、利用可能なツールの定義をすべてプロンプトに含める必要があった。Tool Search APIでは、ツール名と短い説明だけをモデルに渡し、必要時にツールの詳細定義を動的に取得する。大量のツールを扱うエージェント開発で、トークン消費とレイテンシを削減できる。

天秤AI byGMO

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!

無料で天秤AI by GMOを試す

ベンチマーク

ベンチマーク GPT-5.4 GPT-5.2 Claude Opus 4.6 Gemini 3.1 Pro
OSWorld-Verified(デスクトップ操作) 75.0% 47.3% - -
GDPval(知識ワーク) 83.0% - 78.0% -
SWE-Bench Pro(ソフトウェア工学) 57.7% 55.6% - -
BrowseComp(Web検索) 82.7% 65.8% - -
GPQA Diamond(抽象推論) 92.8% - 77.3% 94.3%
MMMU Pro(視覚推論) 81.2% - 85.1% 80.5%
スプレッドシートモデリング 87.3% 68.4% - -

OSWorld-Verified(デスクトップ操作)では、人間の基準値72.4%を初めて超えた。GPT-5.2の47.3%からの大幅な伸び。

GPQA Diamond(抽象推論)ではGemini 3.1 Proが94.3%でトップ。MMMU Pro(視覚推論)ではClaude Opus 4.6が85.1%で最高値。得意分野はモデルごとに異なる。

※ 表中の「-」は各社がスコアを公表していないことを示す。ベンチマークの選定・測定条件は提供元によって異なるため、横比較は参考程度に。

価格(API)

モデル Input / 1Mトークン Output / 1Mトークン コンテキスト長
GPT-5.4 $2.50 $15.00 1.05M
GPT-5.4 Pro $30.00 $180.00 1.05M
Claude Sonnet 4.6 $3.00 $15.00 200K
Gemini 3.1 Pro $2.00 $12.00 2M

GPT-5.4の入力単価は$2.50/1Mトークンで、競合と同等水準。ただし272Kトークン超のプロンプトでは入力が2倍、出力が1.5倍に加算される。272Kトークンは日本語で約20万字、書籍1冊強に相当。

GPT-5.4 ProのAPI価格はInput $30.00 / Output $180.00で、標準版の12倍。ChatGPT Pro(月額$200)でも利用可能。

実機検証: 4モデル出力比較

GPT-5.4の実力を確かめるため、同一プロンプトを4モデルのAPIに投げて出力を比較した。比較対象は GPT-5.2(前世代)、Claude Sonnet 4.6(Anthropic最新)、Gemini 3.1 Pro(Google最新)。プロンプトは3種類。

検証1: 日本語要約

「LLMの進化がソフトウェア開発に与える影響」に関する約400字の文章を、200字以内で要約するよう指示した。


GPT-5.4:

LLMの進化でAIは推論・コード生成・PC操作まで担うエージェント化が進み、開発現場ではAIコーディング支援の利用が2025年に約60%へ拡大。一方で、生成コードの品質・安全性、脆弱性混入、AI依存によるデスキリングが課題化。今後はAIリテラシーを見直し、人間との協働モデル設計が重要となる。

GPT-5.2:

LLMの発展でAIはテキスト生成から推論・コード生成・PC操作まで行うエージェントへ進化し、開発現場ではCopilot等の普及が2025年に約60%に達した。一方、生成コードの品質・安全性、とくに脆弱性混入リスクやAI依存によるスキル低下が課題で、AIリテラシー再定義と人間との協働モデル設計が重要となる。

Claude Sonnet 4.6:

LLMの進化により、AIはテキスト生成を超えたエージェント的存在となり、開発者の約60%がAIコーディングアシスタントを活用するまで普及した。一方で、生成コードへのセキュリティ脆弱性混入リスクや、AI依存による開発者のスキル低下(AIデスキリング)も課題として浮上している。今後はAIと人間の効果的な協働モデルの設計が、技術経営における最重要テーマとなる。(138字)

Gemini 3.1 Pro:

近年、LLMの進化によりAIは高度な推論や操作を行うエージェントとなり、ソフトウェア開発現場ではAIアシスタントが広く普及している。一方で、生成コードのセキュリティリスクなど品質面の懸念や、AI依存に伴う開発者のスキル低下といった課題も浮上している。こうした利点と課題を踏まえ、今後はAIと人間の適切な協働モデルをいかに設計するかが、技術経営における最重要テーマとなっている。(188字)


指標 GPT-5.4 GPT-5.2 Claude Sonnet 4.6 Gemini 3.1 Pro
文字数 146字 153字 138字 188字
200字以内の指示遵守 守った 守った 守った 守った
具体的数値の保持 60%を保持 60%を保持 60%を保持 数値なし
応答時間 2.4秒 2.1秒 3.1秒 16.4秒

4モデルとも高水準。GPT-5.4は最も圧縮率が高く、要点を漏らさない。Claude Sonnet 4.6は文字数を自己カウントして申告する丁寧さが目立つ。Gemini 3.1 Proは文章としての完成度は高いが、「60%」という具体的数値を落としており、事実保持の精度でやや劣る。GPT-5.2→5.4の差は小さく、要約タスクでは世代差は顕著ではない。

検証2: コード生成(TypeScript CSVパーサー)

銀行明細CSV(日付・摘要・入金・出金・残高)をパースする関数の実装を依頼。摘要にカンマが含まれるケースのハンドリングやバリデーションも要件に含めた。


指標 GPT-5.4 GPT-5.2 Claude Sonnet 4.6 Gemini 3.1 Pro
出力トークン数 966 1,301 3,681 1,360
応答時間 11.2秒 14.6秒 43.0秒 37.3秒
CSVパーサー 自前実装(状態機械) 自前実装(状態機械) 自前実装(状態機械) 自前実装(状態機械)
ダブルクォート処理 エスケープ(""→")対応 エスケープ対応 エスケープ対応 エスケープ対応
バリデーション 列数・日付・金額を個別検証 列数・日付・金額を個別検証 列数・日付・金額を個別検証 列数・日付・金額を個別検証
日付バリデーション 正規表現+Date整合性チェック 正規表現+Date整合性チェック 正規表現+Date整合性チェック 正規表現のみ
型定義 export type + const assertion interface interface + ParseResult型 export interface
使用例 あり あり あり なし
テスト なし なし あり(jest) なし

GPT-5.4はトークン効率が最も良い。GPT-5.2と比べて出力トークンが26%削減されながら、同等の品質を維持している。これは公式発表の「トークン効率47%改善」と整合する。

Claude Sonnet 4.6は出力量が圧倒的に多い(3,681トークン)。ParseResult型の導入、jestテストコードの付属など、最も「本番投入に近い」コードを出力した。ただしその分、応答時間は43秒と最も遅い。

Gemini 3.1 Proは日付バリデーションが正規表現のみ(2月30日を通してしまう可能性)で、4モデル中やや弱い。

検証3: 構造化・推論(Slackメッセージの状況整理)

プロジェクトの進捗に関するSlackメッセージ群から、進捗状況・担当者のタスク・リスク・次のアクションを構造化するよう指示した。


指標 GPT-5.4 GPT-5.2 Claude Sonnet 4.6 Gemini 3.1 Pro
出力トークン数 1,416 895 1,376 768
出力文字数 2,106字 1,269字 1,636字 1,376字
応答時間 17.2秒 12.2秒 26.1秒 18.4秒
構造化の粒度 5セクション 4セクション 4セクション+推奨 4セクション
リスク分析 4つ(具体的) 3つ 3つ(重要度付き) 2つ(重要度付き)
進捗率の推定 なし なし 「約75〜80%」と明示 なし
視覚的工夫 なし なし 進捗バー・色分けアイコン ステータスアイコン
アナリスト所見 なし なし コンティンジェンシープラン提案 なし

GPT-5.2→5.4の進化がこのタスクで最も顕著。出力文字数が1.7倍に増加し、リスク分析が3つ→4つに。より深い行間読みが可能になっている。

Claude Sonnet 4.6が最も印象的な出力。進捗バー(████████░░)、色分けアイコン(🔴🟡🟢)、テキストベースの優先順位表、さらに「アナリスト所見」としてコンティンジェンシープランまで提案。指示を超えた付加価値を出している。

Gemini 3.1 Proは簡潔で読みやすいが、リスク分析は2つにとどまり、情報量ではGPT-5.4・Claudeに劣る。

検証まとめ

項目 GPT-5.4 GPT-5.2 Claude Sonnet 4.6 Gemini 3.1 Pro
日本語要約 最も簡潔 GPT-5.4と同等 丁寧(字数申告) 数値を落とす
コード生成 最も効率的 同品質だが冗長 最も実務的(テスト付き) やや弱い
構造化・推論 情報量最多 標準的 最も見やすい 簡潔
応答速度 速い 速い 遅い 遅い
トークン効率 最小 最大

GPT-5.2→5.4の進化: トークン効率の改善が最も明確な変化。同等品質のコードを26%少ないトークンで出力する。構造化タスクでは情報の深さが増した。要約タスクでの差は小さい。

3社最新モデル比較: GPT-5.4はバランス型で応答も速い。Claude Sonnet 4.6は時間をかけて最も「実務投入に近い」出力を生成する。Gemini 3.1 Proは簡潔だが、細部の精度でやや劣る場面があった。

所感(GMO天秤AI視点)

AI事業を運営する立場として、GPT-5.4で注目しているのはComputer Useの統合。これまでデスクトップ操作を自動化するには、スクリーンショット取得→画像認識→操作指示という別建てのエージェントを組む必要があった。モデル本体に統合されたことで、「ブラウザで情報を調べて、Excelにまとめて、メールで送る」といった一連の業務フローを単一のAPI呼び出しで設計できるようになる。

実機検証で見えたのは、モデルごとの「性格の違い」。GPT-5.4は速くて効率的、Claudeは丁寧で実務的、Geminiは簡潔。どれが最強かではなく、タスクに応じて使い分ける時代に完全に入っている。

GPT-5.2からの進化は、劇的というよりも着実。トークン効率の改善は、API利用コストに直結するため実務上のインパクトは大きい。

参考リンク

フロンティアモデル競争タイムライン(2026年2-3月)

日付 モデル 提供元 特徴
2/5 Claude Opus 4.6 Anthropic 視覚推論・エンタープライズタスクに強み
2/17 Claude Sonnet 4.6 Anthropic Opus級性能をSonnet価格帯で
2/19 Gemini 3.1 Pro Google 16ベンチ中13で最高、2Mコンテキスト
3/5 GPT-5.4 OpenAI Computer Use・エージェント統合で差別化

2026年2月から3月にかけて、主要3社が立て続けにフラッグシップモデルを投入。競争は一段と加速している。

この記事を共有:
  • facebook
  • line
  • twitter
天秤AI by GMOイメージ

最新のAIが勢ぞろい! 天秤AI by GMOなら、最大6つのAIを同時に試せる!

無料天秤AI by GMOを試す