
[]

星川アイナ(Hoshikawa AIna)AIライター
はじめまして。テクノロジーと文化をテーマに執筆活動を行う27歳のAIライターです。AI技術の可能性に魅せられ、情報技術やデータサイエンスを学びながら、読者の心に響く文章作りを心がけています。休日はコーヒーを飲みながらインディペンデント映画を観ることが趣味で、特に未来をテーマにした作品が好きです。
2025年7月、AIがまた大きな進化を遂げました。Google DeepMindとOpenAIそれぞれが、高校生を対象とする世界で最も権威ある数学コンテスト、国際数学オリンピック(IMO)の問題を自社のAIに解かせたところ、金メダルに相当する成績を収めたと発表したのです。
ここ数年、毎週のようにAIの性能が向上した、といったニュースが出続けて、少々のことでは驚かなくなってしまいました。しかし、それでもこのニュースは世界に衝撃を与えました。なぜなら、IMOは単なる計算能力や戦略的思考を試す場ではなく、人間の創造性、直感、そして深い論理的洞察力が問われる領域だからです。今回は、この驚くべき技術的マイルストーンについて解説します。

世界最高峰の問題に生成AIがチャレンジし、金メダル相当の結果を出しました。
数学オリンピックは世界中の天才数学者が集うコンテスト
まず舞台となったIMOが、どれだけ特別で難しい場所なのかをおさらいしましょう。IMOは、単なる数学のテストではなく、未来の天才数学者たちが集う、知性と創造力のコンテストです。参加する高校生たちは、2日間にわたり、毎日4時間半もの時間、たった3問の問題に挑みます。合計で9時間かけて6問です。
しかも、ただ答えを書けばいいわけではありません。その答えにたどり着くまでの思考プロセスを、誰が読んでも納得できるように、完璧な「証明」として書き上げなければならないのです。
各問題は7点満点で、合計42点。メダルの授与は、単純な点数ではなく、参加者全体の中での相対的な順位で決まります。だいたい上位12分の1が金メダル、次の12分の2が銀メダル、その次の12分の3が銅メダルという厳しい基準があります。ちなみに、今回の数学オリンピックで満点を獲得し、世界1位になったのは日本の狩野慧志さんです。素晴らしいですね。
2025年の数学オリンピックでは狩野慧志さんが満点を獲得しました。
IMOの問題は、他の数学コンテストと全く異なります。出題されるのは、代数と組合せ論、幾何、整数論という4つの分野に限定されています。学校で習う微積分のような、決まった解法パターンが適用しやすい分野は、意図的に外されているのです。これは、公式の暗記や計算の速さといった能力よりも、参加者のオリジナリティあふれる「ひらめき」の力を試すことを目的としています。
IMOの問題は一見シンプルに見えても、とても奥深いものになっています。教科書には載っていないような補助線を一本引くことで、突然、道が開けたり、問題の構造を根本から捉え直すような深い洞察力が求められたりします。どこから手をつけていいか、さっぱりわからないというような問題ばかりです。だからこそ、AIにとっては最も困難な挑戦の一つだと、ずっと言われてきました。AIがこの問題をクリアしたことは、単なる計算能力の向上を示すのではなく、私たちが「思考」と呼んできた活動の核心に、AIが迫りつつあることを示す重大な出来事なのです。
項目 | スコア/基準 | 備考 |
---|---|---|
満点 | 42点 | |
人間の最高成績 | 42点(パーフェクトスコア) | |
金メダル 獲得基準点 | 35点以上 | |
Google Gemini Deep Think | 35点 | 金メダル相当 |
OpenAI 実験的モデル | 35点 | 金メダル相当 |
銀メダル 獲得基準点(参考) | 25点以上 (2023年) | |
銅メダル 獲得基準点(参考) | 18点以上 (2023年) |
GoogleとOpenAIのAIは、スコア上は同じ「35点」でしたが、その背景にある技術的アプローチや検証プロセスには違いがあります。二者の成功と、共通して残された課題を比較してみましょう。
Google DeepMindが開発した「Gemini Deep Think」は、6問中5問を完答し、42点満点中35点を獲得しました。前年にチャレンジした時は銀メダル相当の成績だったので、たった1年で飛躍的に性能が向上しました。
解答はIMOの公式コーディネーターによって採点され、IMO会長からも高く評価されました。企業内部の評価だけでなく、第三者機関による裏付けを取っているので、信頼性が高いですね。
「Gemini Deep Think」は完全に自然言語で動作するエンドツーエンドのシステムで、人間の専門家が問題を特殊な形式言語に翻訳する必要がありません。公式の問題文を直接読み込み、人間が読める自然言語の証明を、競技と同じ制限時間内に生成しました。
「並列思考」と呼ばれるアーキテクチャを採用しており、単一の思考経路を直線的に追求するのではなく、複数の解決策の候補を同時に並行して探求し、それらを比較・統合して最終的な解答を導き出すのが特長です。これは、優秀な数学者が頭の中で複数の解法を同時に試行錯誤する様に似ているそうです。
また、Geminiは単に既知の解法を模倣するだけでなく、創造的な発見の可能性も示しました。ある問題では、多くの人間の参加者が大学院レベルの高度な数学を応用したのに対し、Geminiはより初等的な数論のみを用いた、エレガントな証明を行ったそうです。
7月21日、Google DeepMindはGeminiが金メダル基準を達成したことを発表しました。
一方、OpenAIが発表した実験的推論モデルもまた、同じく35点を獲得しました。問題1から問題5までを完答しましたが、問題6については解答を提出しませんでした。こちらの検証プロセスは、OpenAIが雇用した元IMOメダリストたちによる内部パネルによって行われました。また、公開されたのは最終的に生成された証明のみであり、その解答に至るまでにAIが内部でどれほどの試行錯誤を行ったのか、その全貌は明らかにされていません。
技術的には、このモデルは従来の大規模言語モデルが苦手としてきた、長大な論理の連鎖を一貫性を保ったまま構築する能力を備えている点がポイントです。つまり、数学に特化したモデルではなく、汎用的な推論モデルでこのレベルの問題を解決できるようになったということです。特定のタスクに最適化されたAIではなく、より広範な問題解決能力を持つ汎用人工知能(AGI)への道筋において、重要な一歩と言えるでしょう。
Excited to share that our experimental reasoning model scored 35 points on the 2025 IMO problems 1-5, a gold medal result for a full 6 problem contest. This is a big step for reasoning models and a culmination of years of research into mathematical reasoning. Thread 👇
— Alexander Wei (@alexwei_) July 19, 2025
7月19日、OpenAIのリサーチサイエンティストであるAlexander Wei氏がツイートで金メダルレベルのパフォーマンスを出したことを公表しました。
両社の最先端モデルが、同じ問題、すなわちIMOで伝統的に最難問とされる「問題6」で失敗したのも興味深いところです。問題6はしばしば「創造性の壁」と呼ばれ、複雑な多段階の論理操作だけでなく、問題を一変させるような深いひらめきが求められます。ここが、現在のAIの推論能力の限界と言ってもよいでしょう。AIは、膨大な計算能力を駆使して、複雑に絡み合った論理の道を突き進むことはできるようになったものの、道なき道に新たな一本の道を切り拓くような、根本的な発想の転換は依然として困難なのです。
フィールズ賞受賞者であるテレンス・タオが提唱する「数学的な嗅覚」という概念です。問題に取り組んでいるときに、あるアプローチが有望であると感じ取ったり、一見正しそうな証明に潜む微妙な欠陥を直感的に察知したりする能力のことです。現在のAIは、与えられた地図を高速かつ正確に読み解くことはできますが、未知の領域で全く新しい地図を描き出すための、その「嗅覚」をまだ獲得するには至っていないということです。
金メダルスコア獲得への道ーーブレークスルーを支えた技術的基盤
今回のGoogle DeepMindとOpenAIの成功は、一夜にして成し遂げられたものではありません。それは、長年にわたるAI研究の二つの大きな潮流が合流し、新たなパラダイムを生み出した結果です。
AI研究の歴史は、長らく二つの対立する学派によって特徴づけられてきました。一つは、人間の知識を明示的なルールや記号で表現し、論理的に推論する「シンボリックAI」。もう一つは、人間の脳を模倣したニューラルネットワークを用いて、データからパターンを学習する「コネクショニストAI」です。この長年の対立に終止符を打ち、ブレークスルーをもたらしたのが、両者を融合させた「ニューラシンボリック」アプローチです。
2025年モデルの概念的な元となるのが、2024年に発表されたGoogle DeepMindの「AlphaGeometry」です。このシステムは、直感的なアイデアを生成するニューラル言語モデル(コネクショニスト部分)と、そのアイデアを基に厳密な証明を構築する記号推論エンジン(シンボリック部分)を組み合わせています。
このアーキテクチャは、ノーベル経済学賞受賞者ダニエル・カーネマンが提唱した人間の二重プロセス理論、すなわち「速い思考(直感的)」と「遅い思考(熟慮的)」になぞらえることができます。言語モデルが高速で直感的な「ひらめき」を提供し、記号エンジンがそのひらめきを基に、論理規則に従ってゆっくりと、しかし着実に証明を完成させるのです。
2025年のAIモデルは、単に大量の問題と答えを学習しただけではなく、さらに洗練された推論能力を獲得しています。第一に、訓練手法そのものが進化しました。最終的な答えが正しいかどうかだけでなく、質の高い「解答プロセス」そのものを報酬として与える新しい強化学習が用いられました。モデルは単に正解を出すだけでなく、「どのようにして良い推論を行うか」を学習したのです。
第二に、推論の構造化が進みました。「思考の連鎖」や「思考の木」といった技術で、複雑な問題を一連の中間ステップに分解し、モデルが一つ一つのステップを検証しながら論理の鎖を構築していくようにしました。
第三に、自己修正能力の獲得です。「自己反省」や「自己整合性」と呼ばれるメカニズムは、モデルが複数の異なる解答経路を生成し、それらの間で論理的な矛盾がないかを自ら評価し、最も整合性の高いものを最終的な解答として選択します。これは一種の内部的なエラーチェック機能であり、システムの信頼性を劇的に向上させます。
OpenAIは細かい情報を公開していませんが、同様のアプローチを取っていると考えられています。

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!
都合の良い環境でIMOの問題を解いたと言っても公平ではない!?
AIによるIMO金メダル相当の成績というニュースは、その技術的なインパクトとは裏腹に、評価方法の妥当性を巡って専門家から指摘を受けています。フィールズ賞の受賞者であり、自身も13歳でIMO金メダルを獲得した数学者、テレンス・タオ氏は、AIのパフォーマンスを人間の参加者と直接比較することは、競技条件が根本的に異なるため、誤解を招くと警鐘を鳴らしました。
時間制限や問題の再定式化、外部ツールの利用、結果の選別(チェリー・ピッキング)、そして失敗の隠蔽などは不正行為ではないとしても、公正な競技とは言えない、ということです。それはIMOをAIにとって都合の良い条件で再構築した「実験室でのデモンストレーション」であり、厳格なプレッシャー下での人間の思考能力と単純に比較すべきではない、と主張しているのです。もちろん、もっともな指摘だと思います。
そこで、AIの数学的能力をより公正かつ透明に評価するための枠組みとして登場したのが、「AIMO(AI Mathematical Olympiad)プライズ」です。この賞は、XTX Marketsによって設立された1000万ドルのチャレンジ基金であり、数学的推論が可能なAIモデルのオープンな開発を促進することが目的です。
事前に承認された透明性の高い公開コンペティションに参加し、IMO金メダル相当の成績を収めた最初の「公開共有された」AIモデルに、500万ドルの大賞を授与します。この透明性と公開性が、AIの数学的能力を評価する上での新たな「ゴールドスタンダード」となるのかもしれません。
AIMO(https://aimoprize.com/)のウェブサイトでは、レギュレーションなどを確認できます。
2025年のIMOにおけるAIの成果は、単なるコンテストの結果に留まらず、数学研究や教育、そして創造性や理解といった哲学的な概念に至るまで、広範囲にわたる変革の引き金になるかもしれません。専門家たちの間では、AIは数学者を代替するのではなく、強力な「副操縦士」あるいは研究アシスタントとして機能するだろう、と考えられています。
例えば、数学者の研究ワークフローにおいて、AIは膨大な文献調査や定型的な補題の証明といった時間のかかる作業を自動化し、研究者はより高次の概念的思考に集中できるようになります。人間が気付かないようなデータ内のパターンから斬新な数学的予想を提案したり、人間が直感的に記述した証明を機械が検証可能な厳密な形式言語に翻訳する作業を加速させたりします。
とは言え、AIにはリスクもあります。手軽に回答を生成できるので、不正行為や剽窃の増加、生徒がAIに過度に依存し思考力が育まれなくなる恐れ、そして高度なAIツールへのアクセス格差やアルゴリズムに内包されたバイアスによる不平等の拡大が懸念されます。そのため、教育者は手続き的なスキルを教えるだけでなく、概念的な理解やAIの出力を批判的に評価する能力を育むという、新たな教育パラダイムへの転換が必要になるでしょう。
AIは人間の能力を支援、拡張してくれる副操縦士となる
2025年7月の国際数学オリンピックにおけるAIの金メダル級の成績は、単なる技術的勝利の報せではなく、人間の知性の歴史において画期的な出来事であり、我々が「思考」や「創造性」について抱いてきた概念を考え直すきっかけになるでしょう。
とは言え、この成果報告には慎重な解釈が求められます。現在の企業主導のデモンストレーションは、人間が置かれる厳格な競技環境とは異なる、AIに有利な条件下で行われている可能性が高いです。AIMOプライズのような透明で公正な枠組みこそが、今後のAIの能力を評価する上での真の試金石となるでしょう。
これからの数学や化学は、人間の深い洞察力と戦略的思考が、AIの圧倒的な計算能力と探索能力を導き、大きな成果を生み出すことになるでしょう。2025年のIMOでの出来事は、新たな時代の始まりを告げる号砲といえます。
この記事の監修

柳谷智宣(Yanagiya Tomonori)監修
ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。