
[]

アイサカ創太(AIsaka Souta)AIライター
こんにちは、相坂ソウタです。AIやテクノロジーの話題を、できるだけ身近に感じてもらえるよう工夫しながら記事を書いています。今は「人とAIが協力してつくる未来」にワクワクしながら執筆中。コーヒーとガジェット巡りが大好きです。
AIの進化は、日々私たちの想像を超えていきますね。またもやエポックメイキングになるAIモデルがお目見えしました。2025年5月のGoogle I/Oで発表され、8月に正式リリースされたGoogle DeepMindの最新モデル「Gemini 2.5 Deep Think」です。単なる性能向上版ではなく、「Deep Think(深い思考)」という名の通り、AIがまるで人間のように熟考し、複雑な問題を解決する能力を備えているのです。
これまでのAIは、パターン認識や流暢な文章作成は得意でしたが、多段階の論理的推論や仮説検証といった高度な知的作業には課題がありました。しかし、Deep Thinkは、この限界を打ち破る技術を搭載し、なんと国際数学オリンピック(IMO)で金メダル相当のパフォーマンスを達成したのです。これは、AIが専門家レベルの知性に近づきつつあることを示す象徴的な出来事と言えるでしょう。
今回は、この驚くべき性能を持つ「Gemini 2.5 Deep Think」について解説します。
8月1日にGoogle AI Ultraユーザー向けに「Gemini 2.5 Deep Think」がリリースされました。
まるで人間のように「熟考」する?革新的な並列思考技術のメカニズム
Gemini 2.5 Deep Thinkの最大の特徴は、Googleが開発した「並列思考技術(Parallel Thinking)」による「深く考える」能力です。従来のAIモデルが、一つの質問に対して一つの推論経路をたどり、一直線に回答を導き出していたのに対し、Deep Thinkは異なるアプローチを採用しています。
私たちが難しい問題に直面したときを想像してみてください。「A案はどうか、いやB案の方が優れているかもしれない」と様々な可能性を検討し、比較し、時には考え直しながら最適な答えを探しますよね。Deep Thinkは、この人間の思考プロセスをAI内部で再現しているのです。
具体的には、モデルが応答を生成する前に、複数のAIエージェントが同じ問題に対して並列的に取り組み、異なるアプローチや解決策の仮説を同時に生成・評価します。
この技術的な基盤となっているのが、「思考の木(Tree of Thoughts/ToT)」と呼ばれるフレームワークです。AIは問題解決の各段階で複数の「思考の枝」を生成し、それぞれの枝が有望かどうかを自己評価します。最も有望な思考の枝をさらに探索し、もし行き詰まったら別の枝に戻る(バックトラッキング)といった、問題解決プロセスを実行できるのです。
Deep Thinkの推論プロセスは、4つの段階で構成されています。まず「仮説生成フェーズ」で複数の解決策を生み出し、次に「並列評価フェーズ」でそれぞれの精度や実現可能性を評価します。続いて「統合・精錬フェーズ」で有望なアイデアを組み合わせ、より洗練された解決策を構築。最後に「最適解選択フェーズ」で最も論理的な回答を選び出します。このプロセスを経ることで、単なる「質問と回答」ではなく、深い洞察に基づいた創造的な解決策の提示が可能になりました。
こうした複雑な思考を支えているのが、「スパース混合エキスパート(Sparse Mixture-of-Experts/Sparse MoE)」というアーキテクチャです。MoEは、モデル内に多数の「専門家(エキスパート)」と呼ばれるサブネットワークを持ち、入力された情報に応じて最適な専門家だけを活性化させる仕組みです。この「熟考」のプロセスには、当然ながら時間がかかります。Deep Thinkを有効にすると、応答までに数分、場合によっては30分以上かかることもあります。UI上でも「処理に数分かかる場合があります」と注意が表示されるほどです。
しかし、これは欠点ではありません。短時間で返ってくる不確かな答えよりも、時間をかけて得られる信頼性の高い答えの方が、ビジネスの重要な意思決定においては価値があるからです。
競技プログラミングサイトCodeforcesの難問「catch-the-mode」もクリアできます。
数学オリンピックで金メダル獲得! 業界最高水準の性能と競合を凌駕する優位性
Gemini 2.5 Deep Thinkの性能を語るなら、最も注目すべきは、やはり数学分野での快挙でしょう。Deep Thinkは、極めて難易度の高い国際数学オリンピック(IMO)2025において、金メダル相当のスコアを達成しました。人間と同様に自然言語で動作し、競技時間の制限内で証明を終えています。
コーディング能力も業界トップクラスです。競技プログラミングのベンチマークであるLiveCodeBench V6では、87.6%という驚異的なスコアを記録しました。これは、Grok 4の79%、OpenAI o3の72%を上回る業界最高性能です。
さらに、ビジネス活用において重要なのが、膨大な情報を一度に処理できる能力です。Gemini 2.5 Proは、最大100万トークンという桁外れのコンテキストウィンドウを持っています。GPT-4oの12万8000トークンやGPT-5シリーズの40万トークンと比較すると、その差は歴然ですね。この大容量コンテキストにより、長大な契約書や技術文書、大規模なデータセットを分割することなく一括で読み込ませ、分析や要約を行うことができます。長文処理の精度も高く、100万トークンの入力に対しても82.9%の精度を維持しています。

各種ベンチマークの比較グラフです。
AIは専門家の強力なパートナーになり得る
Deep Thinkの高度な推論能力は、ビジネスの現場、特に高い専門性と精度が要求される分野において、大きな変革をもたらす可能性を秘めています。
まず、ソフトウェア開発の領域では、Deep Thinkは単なるコード生成ツールを超えた、高度なコーディングパートナーとして機能します。例えば、長年運用されてきた複雑なレガシーシステムのコードベース全体を読み込ませ、自動的にリファクタリング(整理・最適化)案を提示させることが可能です。100万トークンのコンテキストウィンドウが、ここで真価を発揮します。また、計算速度が重要となるアルゴリズム開発において、複数の選択肢を並行して検討し、計算量や効率のトレードオフを考慮した上で最適な実装を提案することも得意です。難解なバグの特定と修正案の提示など、デバッグ作業も劇的に加速するでしょう。
科学研究や医療・製薬の分野でも、大きなインパクトが期待されます。創薬プロセスにおいて、Deep Thinkは数百万件に及ぶ化合物データや学術論文を精読・分析し、薬物相互作用の仮説を評価したり、有望な新薬候補を特定したりするサポートができます。従来、研究者が何か月もかけて行っていた文献調査や試行錯誤が大幅に効率化され、新薬開発の期間短縮につながる可能性があります。実際、250以上の論文を深く分析する用途での評価も行われており、「発見への道のりを加速する」ツールとして注目されています。
金融やデータ分析の分野では、複雑な意思決定を支援します。例えば、過去数十年分の市場データを一度に読み込ませ、複数の経済シナリオ(強気シナリオ、弱気シナリオなど)を並行してシミュレーションし、最も成功率の高い戦略案を提案するといった使い方が考えられます。Deep Thinkが何通りもの仮説を検討し、それぞれの結果を提示してくれるため、人間の意思決定者は複数の可能性を比較しながら最適解を選びやすくなります。
Googleは、この強力なモデルを開発者や企業が活用しやすい形で提供する準備も進めています。特に注目したいのが、「思考予算(Thinking Budget)」と「思考サマリー(Thought Summaries)」という二つの機能です。
思考予算は、モデルが推論に使用するトークン数(=思考の深さ)を開発者が制御できる機能です。迅速な回答が欲しい場合は予算を低く設定し、最大限の精度が必要な場合は予算を高く(最大3万2000トークン)設定するなど、コストと性能のバランスを柔軟に調整できます。思考サマリーは、AIが内部でどのように推論を進め、結論に至ったのかを要約して提示する機能です。これにより、AIの思考プロセスが可視化され、デバッグや信頼性の検証が容易になります。

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!
高額な価格設定と利用制限。ユーザー評価から見える課題
Gemini 2.5 Deep Thinkの能力は魅力的ですが、利用コストが高いということは念頭に置いておきましょう。現在、Deep Thinkを利用する主要な方法は、「Google AI Ultra」というプレミアムサブスクリプションプランへの加入です。このプランの価格は月額249.99ドル(約3万6000円相当)と高価で、OpenAIやxAIの最上位モデルと直接競合する価格帯となっています。このプランには、Deep Thinkの利用権に加え、大容量クラウドストレージなども含まれますが、専門家やパワーユーザーを対象としていることは明らかです。
高額な料金設定に加え、1日あたりの利用回数にも上限が設けられています。具体的な回数は公表されていませんが、一部のユーザーからは「わずか数回のプロンプトで上限に達してしまった」との報告も上がっており、高頻度の利用には向いていないようです。また、先述した通り、応答時間が長いという特性もあるため、即座の応答を求める日常的な用途には不向きです。
企業や開発者向けには、Vertex AIを介したAPIアクセスも提供されていますが、現在は限定プレビュー向けとなっており、本格展開が待たれる状況です。APIの価格設定は、入力100万トークンあたり2.50ドル、出力100万トークンあたり15.00ドルとなっており、こちらも高価格帯といってよいでしょう。
初期のユーザーからのフィードバックは、Deep Thinkが持つ二面性を浮き彫りにしています。設計された専門領域、すなわち数学、コーディング、複雑な問題解決に関しては、肯定的な評価がほとんどです。ユーザーは、そのパフォーマンスを「驚異的」とか「推論の巨人」などと表現しており、詳細で包括的な応答生成能力を高く評価しています。特にソフトウェア開発者からは、競合モデルよりも優れた解決策を提示できるとの声も上がっています。
しかし、専門領域を離れると、評価は変わります。特に創造的な執筆タスクにおいては、「コーディング以外は凡庸」「以前のモデルより劣化した」と感じるユーザーも少なくありません。Deep Thinkの意図的で論理的な思考プロセスが、かえって創造性の足枷となり、過度に分析された結果として個性のない、退屈な文章を生み出してしまうというのです。これは、論理的な「収束的思考」と、創造性に不可欠な「拡散的思考」のトレードオフとも考えられます。
実用上の課題も指摘されています。100万トークンという広大なコンテキストウィンドウを持ちながら、非常に長い対話の中で文脈を見失うことがあるという報告や、依然としてハルシネーションが発生するといった課題も残っています。Deep Thinkは万能ではなく、論理思考のスペシャリストとして適材適所で活用することが重要と言えるでしょう。
AIとの協働は新たな次元へ。専門分化が進む未来のAI市場
Gemini 2.5 Deep Thinkの登場により、AI開発の潮流は汎用的な能力から専門的な能力へ、そして即時的な応答から意図的な思考へシフトしつつあります。Deep Thinkは、複数の仮説を探求し、自己評価を通じて最適な解を導き出すというアプローチにより、AIによる高度な推論の可能性を見せてくれました。
数学オリンピックでの快挙や各種ベンチマークでの圧倒的な性能は、特に絶対的な正確性が求められる高リスクなビジネス領域において、AIの応用可能性を拡大してくれることでしょう。
一方で、創造的なタスクにおける柔軟性の低下や、高額なコスト、利用制限といった課題もあります。これは「単一の万能AIが全てをこなす」という未来像とは異なる可能性を示唆しています。むしろ、AI市場は成熟し、特定のタスクに特化した多様なモデルが共存するエコシステムへと向かうのかもしれません。
この記事の監修

柳谷智宣(Yanagiya Tomonori)監修
ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。