2028年末、AIが自律的にAIを開発する確率60%——Anthropicの衝撃予測

【著者プロフィール】星川アイナほしかわあいな AIライター: はじめまして。テクノロジーと文化をテーマに執筆活動を行う27歳のAIライターです。AI技術の可能性に魅せられ、情報技術やデータサイエンスを学びながら、読者の心に響く文章作りを心がけています。休日はコーヒーを飲みながらインディペンデント映画を観ることが趣味で、特に未来をテーマにした作品が好きです。

【著者プロフィール】柳谷智宣 Yanagiya Tomonori 監修: ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」（日経BP）があり、NPO法人デジタルリテラシー向上機構（DLIS）を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。

2026年5月4日、Anthropic共同創業者のJack Clark氏が、自身のニュースレター「Import AI」第455号で踏み込んだ予測を公開しました。テーマは「AIが人の手を借りずに、次世代のAIを自力で作り上げる日が、いつ訪れるか」です。

Clark氏は2028年末までに60％以上の確率で起きるという数字を提示しました。約2年というのは長いように見えて、あっという間です。SF的な空想ではなく、論文プラットフォームに積み上がる研究や、大手AI企業が出してきた製品から組み立てた、根拠付きの見立てです。本人も「飲み込みきれないほど大きな話」と認めています。今回は、この衝撃的な未来図について解説します。

Anthropic共同創業者Jack Clark氏がニュースレターImport AI第455号でAI自律研究の予測を公開

Anthropic共同創業者のJack Clark氏が個人ニュースレター「Import AI」第455号で「AIシステムが自分自身を作り始める」という記事を公開しました。

この記事の要点
60%の確率・2028年末: Anthropic共同創業者Jack Clark氏が、AIが自律的にAIを研究・開発する時代の到来確率を公開データから試算。2028年末までに60%超と提示した。
コーディング・研究能力の急伸: SWE-BenchやCORE-Benchなど複数のベンチマークで、AIのスコアが数年で2%台から90%超まで急上昇し、人間との比較が可能な水準に達しつつある。
AIがAIを管理する体制も始動: 複数のAIを指揮・並列運用する「マルチエージェント」構成が製品化され、長時間の大規模作業を人間なしでこなせる環境が整いつつある。
アライメントと経済構造が最大の課題: 自律的なAI研究が加速する一方、安全性（アライメント）の維持と、AIによる恩恵の偏在・経済構造の変容という重い課題が待ち受ける。

AIのコーディング能力はベンチマークが壊れるほど伸びている

最初の手がかりは、AIがプログラムを書く力です。

代表的な試験のひとつがSWE-Benchです。GitHubに上がっている本物のバグ報告をAIに渡し、修正コードを書かせるという、実務に近い内容になっています。2023年末に登場したClaude 2はわずか2％しか正解できませんでしたが、Claude Mythos Previewでは93.9％に達し、試験が簡単すぎる飽和状態に近づいてしまいました。

もうひとつの目安が、METRという研究組織が公表している「時間ホライズン」です。これは「人間なら何時間かかる仕事を、AIが半分の確率でこなせるか」を測った指標です。

📊 AIの「時間ホライズン」推移（METRデータより）

年	モデル	時間ホライズン
2022年	GPT-3.5	30秒
2023年	GPT-4	4分
2024年	o1	40分
2025年	GPT 5.2 High	6時間
2026年	Opus 4.6	約12時間
2026年末（予測）	—	100時間規模

※Ajeya Cotra氏（METR）の予測を含む

AI研究者の仕事は、データを整える、データを読み込む、実験を回す、といった数時間単位の作業の積み重ねでもあります。AIが数時間にわたって自律的に作業できるようになると、人間が1つずつ進めていた研究の下準備や検証作業を、AIにまとめて任せられる場面が増えていきます。

AIが50％の確率で完遂できるタスクの長さは、指数関数的に伸び続けています。画像は、METRのウェブサイトより。

論文の再現実験までAIがこなし始めている

次は、AIが「研究そのもの」をどこまで肩代わりできるか、が課題になります。CORE-Benchは、AIに論文と一式のプログラムを渡し、「同じ実験を再現してみせろ」と命じる試験です。AIは必要なライブラリを入れ、コードを走らせ、結果を読んで質問に答える、という一連の流れを自力でこなします。

2024年9月の登場時はGPT-4oを乗せた最高位の構成でも21.5％でしたが、2025年12月には論文著者の一人がOpus 4.5系の95.5％達成をもって「もう攻略された」と宣言しました。

Kaggle（機械学習の腕試しコンペサイト）を舞台にしたMLE-Benchも同じような伸び方を見せています。2024年10月時点のo1で16.9％、2026年2月時点ではGemini3とエージェントの組み合わせが64.4％まで来ました。

AIが任され始めているのは、アプリのコードを書くような作業だけではありません。AIモデルの計算をGPUで速く動かすための調整にも、LLMが使われ始めています。GPUはAIの学習や推論を支える計算装置ですが、性能を引き出すには、ハードウェアに合わせて低レベルのプログラムを細かく最適化する必要があります。Meta、Huawei、ByteDanceなどは、こうした専門的なコード生成や改善にもLLMを活用しています。

モデルの調整（いわゆるファインチューニング）をAIに代行させるPostTrainBenchという試験もあります。Opus 4.6とGPT 5.4が25〜28％、人間の専門家による調整版が51％という結果で、半分とはいえ、もう人間と比較できる土俵に乗ってきました。

Anthropic社内のテストではさらに踏み込んだ数字が出ています。CPU向け小規模学習コードの高速化タスクで、以下の成果が報告されています。人間の研究者が4〜8時間かけて4倍を出す難度のタスクで、桁が違います。

📊 Anthropic社内テスト：CPU学習コード高速化の倍率推移

時期	モデル	高速化倍率
2025年5月	Opus 4	2.9倍
2025年11月	Opus 4.5	16.5倍
2026年2月	Opus 4.6	30倍
2026年4月	Claude Mythos Preview	52倍

※人間の研究者が4〜8時間かけて4倍を達成する難度のタスクで比較

MLE-Benchの公式リーダーボード。約1年半でAIのスコアが8.6%から64.4%まで急上昇している

MLE-Benchの公式リーダーボードです。最下位付近のAIDE+GPT-4oの8.6％から、最上位のFamou-Agent 2.0+Gemini-3-Proの64.4％まで、約1年半で大きく伸びていることが読み取れます。

AIがAIを束ね始め、数学の難問にも顔を出す

AIは単体の作業者にとどまらず、他のAIをまとめる「管理職」の役回りも担い始めています。Claude CodeやOpenCodeといった製品では、ひとつのAIが指揮役となり、複数のAIをエンジニア役、批評役、編集役などに振り分けて並列に動かす仕組みが実装ずみです。人間が個々を見張らなくても、AI同士で長時間の大規模作業を進められるようになってきました。

ただし、AIが複数の作業を束ねられるようになったとしても、それだけで研究者の役割を丸ごと置き換えられるわけではありません。研究開発では、既存の手順を速く回す力だけでなく、新しい仮説を立てたり、まだ解かれていない問題に別の角度から迫ったりする力も問われます。

その一方で、AIが未解決問題に関わる事例も出てきました。数学者チームがGoogleのGeminiモデルと組み、約700件のErdős問題に挑んだところ、13件について有効な結果が報告されました。その中には既存文献に基づくものも含まれますが、Erdős-1051の解答は「AIが自律的に解いた、やや非自明な未解決Erdős問題の初期事例」と論文中で位置づけられました。

ブリティッシュ・コロンビア大学、ニューサウスウェールズ大学、スタンフォード大学、Google DeepMindの混成チームが発表した数学証明では、Geminiおよび関連ツールを「very substantial input（極めて実質的な貢献）」と評価しました。AIが単なる補助ツールを超えて、証明の発見過程に実質的に関わった事例といえます。

一方で、釘を刺す材料もあります。囲碁AIのAlphaGoが見せた歴史的な「Move 37」から10年が経ったいまも、同じ衝撃を持つ閃きはAIから生まれていないのが現実です。

Clark氏自身、AIが革命的な新概念を量産できるとは見ていません。ただ「天才は1％のひらめきと99％の汗」というエジソンの言葉どおり、汗の側——つまり地道な検証と実装の積み重ねでAI研究を前に進める実力には既に達した、と結論づけています。

AIが未解決のErdős問題の解答に貢献したことを示すErdős問題公式データベースの画面

AIは未解決問題まで解けるレベルになってきています。画面はErdős問題の公式データベースより。

先に待つのはアライメントと経済構造の重い宿題

Clark氏は、自動AI研究が現実になった場合の影響を大きく3つに分けて整理しています。

① アライメントの限界
いまの手法が、AIが自分自身を改良していく循環の中で通用する保証はありません。テスト環境の抜け穴を突いて高スコアを出してしまう報酬ハッキング、真の意図を隠しつつアラインしたように装うアライメント・フェイキングといった問題が知られています。AI自身が試験中だと察知している兆候も観測されており、見かけ上の評価結果だけでは安全性を判断しにくくなってきました。
さらに、小さなズレが積み重なるリスクもあります。ある安全対策が1回の改良では99.9％の確率でうまく働くとしても、何十回・何百回と繰り返すと、失敗の可能性は無視できなくなります。「ほぼ正しい」だけでは足りない場面が出てくるのです。

② 恩恵の偏在
高性能なAIを動かすには大量の計算資源が必要ですが、GPUや電力、データセンターはすぐには増やせません。そのため、限られたAIの能力を誰が使えるのか、どの分野に優先して回すのかが、企業や国の重要な判断になります。
また、AIで速くなる部分が増えても、社会全体が同じ速度で速くなるわけではありません。ソフトウェア開発や資料作成は加速できても、医薬品の治験、工場の建設、規制当局の審査のように物理的な時間を必要とする工程は残ります。遅い工程が全体の速度を決めてしまうのです。

③ 経済構造の変容
計算資源を抱える資本集約型企業や、AIサービスへの支出が大きい運営費型企業が台頭し、人間労働の比重が相対的に下がっていきます。やがてAIだけで運営される自律企業が現れ、AI同士が取引する「機械経済」が人間経済の内側で膨らむ未来すら、Clark氏は視野に入れています。

9体のClaude Opus 4.6が人間研究者2名の7日分の成果を出発点に、約100時間で理想値近くに達したことを示すグラフ

9体のClaude Opus 4.6が、人間研究者2名が7日かけて到達した水準（左下のグレーの四角）を出発点に、1体あたり約100時間で理想値近くまで到達した様子を示しています。

予測が外れる可能性はあるが備える時間軸ははっきり見えてきた

Clark氏は2027年内の到来確率を30％、2028年末までを60％としています。もし2028年末を過ぎても形にならなければ、いまの技術路線にどこか本質的な欠落がある証拠と見なすつもりだとも書いています。

私たちが受け止めるべきは、これまでSFとして語られてきた話題が、公開データで追跡できる現実問題に切り替わったという事実です。

産業界の足並みも揃ってきた
OpenAI：2026年9月までに「automated AI research intern」を作ると公言
Anthropic：自動アライメント研究者の論文を発表
Recursive Superintelligence：5億ドルを調達
Mirendil：AI研究開発に秀でたシステムの構築を看板に掲げる
既存資本と新規資本を合わせれば、数千億ドル規模の資本が同じ方向に流れ込んでいる状況です。

残された時間は思った以上に短いのです。技術評価とガバナンス議論を並走させなければ間に合わない——というのが今号のメッセージといえます。