MIT1万7000件調査で判明：AI自動化は「大波」より「満ち潮」のように広がる

[]

2026年4月1日、MIT FutureTechの研究チームが、AI自動化の進み方に関する大規模調査の予備的結果「Crashing Waves vs. Rising Tides（大波と満ち潮）」を公開しました。AIが人間の仕事をどう置き換えていくのか、その進み方のパターンに焦点を当てた研究です。

この論文では、米国労働省の職業データベース「O＊NET」をもとに、文章の読み書きで進められる3000件超のタスクを抽出し、40種類以上のLLMに実行させました。その結果を、実際にその仕事の経験がある評価者が採点しています。集まった評価は1万7000件以上にのぼり、調査は現在も継続中です。今回は、この大規模調査から見えてきたAI自動化の実像を、具体的な数字とともに見ていきます。

この記事の要点

「満ち潮」型の広がり方: AIの自動化は一部の職種を突然飲み込む「大波」ではなく、幅広い領域にじわじわ浸透する「満ち潮」型であることが、1万7000件超の評価データから示された。
驚異的な改善速度: AI成功率は年間8〜11ポイント向上しており、同じ成功率でこなせるタスクの長さは約3.8カ月ごとに倍増している。
職種によって浸透パターンに大きな差: 設備保守・修理（72.5%）が最も高く、法務（46.8%）が最も低いなど、職種ごとの差が明確に存在する。
2029年に80〜95%到達の予測も、完全自動化は遠い: 成功率がロジスティック曲線の高水準に近づくほどペースは鈍化し、現場での情報収集・規制対応などの壁も残る。

「大波」仮説を覆す、意外なほどフラットな成功率カーブ

まず、論文のキーコンセプトを整理しましょう。AIの自動化には2つのパターンが考えられます。

Crashing Waves（大波）

モデルが進化すると、それまでまったくできなかったタスクが突然できるようになり、特定の仕事に集中的な衝撃を与えるパターン。

Rising Tides（満ち潮）

性能の向上が幅広いタスクに対して比較的均一に広がっていくパターン。特定の職種だけでなく、全体的にじわじわ浸透する。

METRのKwa氏らが2025年に発表した先行研究では、研究業務やソフトウェア開発に関する170件のタスクを分析し、AIが50％の成功率でこなせるタスクの長さが急速に伸びていると報告していました。これは、ある水準を超えると一気に自動化が進む「大波」型の見方を後押しする結果でした。

ところが、今回のMIT FutureTechの研究では、別の傾向が示されました。タスクにかかる時間が長くなっても、AIの成功率は急には落ちなかったのです。タスクの所要時間が10倍になっても、成功率の低下は約7.6ポイントにとどまりました。数分で終わる作業でも、数時間かかる作業でも、AIの成績差は想像ほど大きくなかったわけです。研究チームは、この広くゆるやかに浸透するパターンを「満ち潮」と表現しています。

AIの自動化パターンを「大波」と「満ち潮」の2つの仮説で図示した概念図。画像は論文より。

なぜ先行研究と違う結果になったのでしょうか。論文では、対象としたタスクの性質の違いが大きいと説明しています。METRが扱ったのは、バグ修正やアルゴリズム実装のように正解が比較的はっきりした作業でした。一方、MIT FutureTechが見たのは、実際の労働市場にある、より多様で専門知識も必要な仕事です。現実の仕事に近いタスクほど、AIの進歩は一部の職種だけを急に飲み込むのではなく、幅広い領域にじわじわ広がっていくと考えられます。

2024年から2025年で急上昇、成功率は年間8〜11ポイント増

フラットなカーブは、AIの進歩が遅いことを意味するわけではありません。むしろ、論文が示す改善速度はかなり速いものです。

📈 AIの改善速度まとめ

2024年Q2: 最先端モデルでも、3〜4時間タスクを成功率50%でこなすのが限界
2025年Q3: 同じ成功率50%で1週間分のタスクまで対応可能に
倍増ペース: 同じ成功率でこなせるタスクの長さは約3.8カ月ごとに倍増
年間改善幅: 成功率が年間8〜11ポイント向上

2025年第3四半期には、短いタスクで約79％、長いタスクでも約60％の成功率を記録しており、全体的にかなり高い水準に到達しています。

品質基準別に見たAI成功率とタスク所要時間の関係。

ここで興味深いのは、モデルの大きさによる差と、世代交代による差が同じではないことです。同じ時期の大型モデルと小型モデルを比べると、大型モデルは短時間のタスクでは強いものの、長時間のタスクになるほど差が小さくなります。

一方で、新旧のモデルを比べると、短いタスクでも長いタスクでも成績がまんべんなく底上げされていました。つまり、単にモデルを大きくするだけでは長時間タスクの壁は越えにくく、設計や学習方法そのものの進化が、全体の性能向上に効いている可能性があります。

タスク所要時間別の成功率推移と、成功率閾値別のタスク所要時間推移。

職種で大きく異なるAIの浸透パターン

全体では「満ち潮」型の傾向が見られましたが、職種ごとに見ると差はかなり大きくなります。論文では、O＊NETの22職種群ごとに分析を行っており、AIの成功率がどれくらい高いか、またタスク時間が長くなるとどれくらい成績が落ちるかに、はっきりした違いが見られました。

職種	平均成功率	特記事項
設備保守・修理	72.5%	文章処理しやすい周辺業務が多い
建設・採掘	71.0%	—
運輸・資材搬送	70.6%	—
コンピュータ・数学	55.9%	時間削減効果の見込めるタスク比率94%
法務	46.8%	最も低い水準

ただし、この数字はそのまま職種全体の自動化しやすさを示すものではありません。今回の調査はテキストベースのタスクに限られているため、設備保守のように現場作業が中心の仕事では、文章で処理しやすい周辺業務が多く含まれている可能性があります。

タスク時間が長くなったときの落ち込み方にも差がありました。パーソナルケア・サービスは最も落ち込みが大きく、建築・エンジニアリング、芸術・デザイン・メディアが続きます。一方、法務や食品調理は、もともとの成功率は低いものの、タスクが長くなっても成績が大きくは変わりませんでした。

論文では、この差は仕事の進み方（工程のつながり方）の違いで説明できるとしています。工程が順番につながっていて、途中のミスが後の作業に響きやすい仕事ほど、タスクが長くなるにつれてAIの成功率が下がりやすい、という考え方です。

O＊NETの職種別に見た、LLM活用で10%以上の時間削減が見込めるタスクの割合。

2029年に80〜95%到達の予測、ただし完全自動化にはまだ遠い

研究チームは、これまでの改善ペースが今後も続くと仮定した場合の予測も示しています。今回調査したテキスト関連タスクの多くは、2029年までに80〜95%の成功率へ到達する見通しです。ただし、これは「最低限使える」レベルを満たすかどうかで見た数字であり、人間の平均的な仕事の質に届くまでには、なお時間がかかります。

⚠️ 完全自動化を過信しないための注意点

ロジスティック曲線の壁: 成功率が高水準に近づくほど改善ペースが鈍化。95%→99%は60%→80%より格段に難しい。
現場での追加ハードル: 情報収集、社内システム連携、規制対応、費用対効果の判断など。
タスク≠職業: 個々のタスクを自動化できても、職業全体がそのまま自動化されるわけではない。
計算資源・アルゴリズム進歩の不確実性: 今回の予測はあくまで上限寄りの見通しとして扱われている。

AIが「大波」ではなく「満ち潮」のように広がるのだとすれば、私たちに必要なのは、劇的な断絶を煽ることではなく、どこで、どの程度、仕事が変わるのかを定点観測していく姿勢だと思います。

論文「Crashing Waves vs. Rising Tides」解説まとめ。

この記事を共有：