生成AI

東大・京大二次試験でAIが満点取得|数学の未解決問題も突破した最新モデルの実力

-

-

東大・京大二次試験でAIが満点取得|数学の未解決問題も突破した最新モデルの実力

筆者 天秤AIメディア編集部 / GMO天秤AI株式会社

生成AIの最新情報や使い方ガイド、活用事例などを紹介するメディアです。
AI初心者の方向けの情報からニッチな情報まで発信中!

 2026年4月、OpenAIは新フラッグシップ「GPT-5.5」を投入し、Anthropicは「Claude Opus 4.7」を公開するなど、リリースラッシュが続いています。AIの性能進化は止まるところを知らず、4月28日にAIベンチャーのLifePromptが河合塾の協力を得て発表したレポートが、教育界とIT業界の両方を揺さぶっています。最新の生成AIに東大と京大の二次試験を解かせたところ、合格者最高点を上回るスコアが続出したというのです。

 さらに数学の世界でも、AIの存在感は急速に増しています。ハンガリーの伝説的な数学者ポール・エルデシュが残した未解決問題群をめぐり、AIが証明案の生成や形式証明への変換に関わる例が相次いでいます。

 大学入試の最難関を突破し、数学研究の現場にも入り込み、さらに実務エージェントとしても進化する最新AIの実力は、もはや「便利なチャットボット」の範囲を大きく超えています。AIの真価は、いよいよ専門領域の中で問われる段階に入ったのです。


LifePromptが2026年4月28日に公開したリリース資料

LifePromptが4月28日に出したリリースです。画像はLifePromptのリリースより。

最新AIが東大理三と京大医学部の合格者最高点を超えた

 LifePromptは河合塾の協力のもと、2026年度の東大と京大の前期日程の問題を、ChatGPT 5.2 Thinking、Gemini 3 Pro Preview、Claude Opus 4.5の3モデルに解かせました。問題はPDFを画像化してAPIに渡し、Web検索は禁止。記述式の答案は河合塾講師が採点しています。

 結果は強烈なものでした。東大の理科三類は合格者最高点が550点満点中453.60点でしたが、ChatGPTは503.59点、Geminiは496.54点と、いずれも50点近く上回っています。京大医学部医学科でも、ChatGPTが1176.38点、Geminiが1122.75点を記録しました。Claude Opus 4.5は1005.25点で、参考値の合格最低点942.50点を上回りました。

 最も衝撃的だったのは数学です。東大理系数学(120点満点)と文系数学、京大の理系数学でChatGPTとGeminiが満点。京大化学(100点満点)でもChatGPTが満点を叩き出しました。昨年の検証では、最新モデルの東大理系数学スコアは38点でしたから、わずか1年で満点に到達した計算です。


東京大学理科三類のAIテスト結果一覧

東京大学の最難関、理科三類のテスト結果です。

エルデシュの未解決問題群でAIが自律解決の事例を積み始めた

 数学の世界では、もっと根本的な変化が起きました。2026年1月、ハンガリーの伝説的な数学者ポール・エルデシュが残した未解決問題のひとつ、通称「Erdős Problem #728」が、AIの手によって解決されたのです。OpenAIのGPT-5.2 Proが非形式の証明案を生成し、Harmonic社の自動形式化システム「Aristotle」がそれをLeanの形式証明へと落とし込みました。フィールズ賞受賞者のテレンス・タオ氏も検証に加わり、自律解決を認めています。

 GPT-5.2 Proは同じく1月にエルデシュ問題#729も解いており、別経路で#397も解決されました。タオ氏が管理する集計によれば、2025年10月以降の数か月で、約100問のエルデシュ問題が「解決済み」へと移行しました。

 Google DeepMindも黙っていません。同社の数学研究エージェント「Aletheia」は、Gemini 3 Deep Thinkを基盤に、自然言語の検証器と推論時のスケーリング、ツール活用を組み合わせる構造です。エルデシュ問題のデータベースに残された700問の未解決問題に対し、4問を新規に自律解決し、 別途9問は既存文献で同等の解が見つかったとしてクローズ。

 ただし、ここでも注意が必要です。タオ氏は今回の成果を「最も手が届きやすい果実」と表現しており、まだ数学全体を覆す段階には至っていません。Aletheia論文も「subconscious plagiarism」、つまり訓練で吸収した既存知識を自前の発見のように再現してしまうリスクを警告しています。Lean 4による形式検証は「証明の論理的正しさ」を保証しますが、「歴史的新規性」や「先行文献の見落としがない」までは保証しません。それでも、AIが研究の現場に補助者として入り始めたことは、もはや疑いようがありません。


erdosproblems.comフォーラムに掲載されたエルデシュ問題#728の問題文

エルデシュ問題#728の問題です。画面は、「erdosproblems.com」のフォーラムより。

天秤AI byGMO

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!

無料で天秤AI by GMOを試す

GPT-5.5とClaude Opus 4.7が実務エージェントの新段階を切り拓く

 Anthropicは4月16日に「Claude Opus 4.7」を一般公開しました。複雑なソフトウェア開発や長時間のコーディングタスクでの改善を打ち出しており、一部の顧客ベンチマークでは前世代比13%の改善、Rakuten-SWE-BenchではOpus 4.6比で3倍の本番タスク解決数が報告されています。API価格は入力5ドル、出力25ドル(いずれも100万トークンあたり)で据え置き、SWE-Bench Proでは64.3%という強さです。

 1週間後の4月23日、OpenAIは「GPT-5.5」を投入しました。第三者ベンチマークの「Artificial Analysis Intelligence Index」で首位を奪還し、Terminal-Bench 2.0では82.7%を記録。長時間にわたる自律的なタスク遂行で、特に評価されています。NVIDIAのエンジニアが「アクセスを失うのは手足を切断されたような気分」とコメントしたエピソードまで紹介されました。

 モデルだけではありません。Anthropicは4月9日、AIエージェント機能「Claude Cowork」をすべての有料プランで一般提供開始しました。Pro、Max、Team、Enterpriseで利用でき、macOSとWindowsのデスクトップアプリから動かせます。プロンプトに一問一答に応じるだけでなく、ローカル環境のファイルを読み書きし、複数ステップの作業を自分で進めるAI同僚という位置づけです。OpenAIも、ChatGPTの企業向けプランに「Workspace Agents」を実装し、ユーザーのPCがオフラインでもクラウド側で作業を継続させる構成を打ち出しています。


4月30日時点のArtificial Analysis Intelligence Indexのグラフ

4月30日時点のArtificial Analysis Intelligence Indexのグラフです。

AIは検索や会話を超え専門領域の実務へと役割を広げ始めた

 この流れは、AIが単に「文章を作る道具」から、専門的な業務を支援する存在へ移りつつあることを示しています。検索結果を要約する、質問に答える、メール文面を整えるといった使い方だけでなく、コードを読み、画像を理解し、長い手順を分解し、必要に応じて作業を進める。AIの役割は、少しずつ実務の内側へ入り込んでいます。

 象徴的なのが、Anthropicが2026年4月に発表した「Project Glasswing」です。これは、同社の未公開モデル「Claude Mythos Preview」を使い、重要なソフトウェアの脆弱性を見つけ、修正につなげる取り組みです。Anthropicは、このモデルについてサイバーセキュリティを含む幅広い領域で同社最高の能力を持つモデルと説明しています。つまり、セキュリティ専用AIというより、ソフトウェアを深く理解し、修正できる能力が高まった結果として、脆弱性発見にも使える段階に来たということです。

 もちろん、AIが人間の専門家をそのまま置き換えるわけではありません。むしろ重要なのは、専門家の判断や確認を前提に、調査、整理、検証、下書き、候補提示といった作業をどこまで任せられるかです。AIの性能向上は、便利なチャットボットが増えるという話にとどまりません。企業の開発、セキュリティ、調査、サポート、文書作成といった現場で、人間の仕事の進め方そのものを変え始めています。

 今後の焦点は、「AIが賢いかどうか」だけではなく、「どの業務に、どの範囲まで、どのような確認体制で組み込むか」に移っていきます。AIを使う側には、過度に恐れるのでも、丸投げするのでもなく、得意な作業を見極めて仕事の流れに組み込む力が求められます。生成AIの進化は、もはや技術ニュースの中だけの話ではありません。日々の業務設計そのものに関わるテーマになっているのです。


記事内容の解説図

解説画像

この記事を共有:
  • facebook
  • line
  • twitter
天秤AI by GMOイメージ

最新のAIが勢ぞろい! 天秤AI by GMOなら、最大6つのAIを同時に試せる!

無料天秤AI by GMOを試す