あなたが使うAIは安全？2025年最新レポートが明かした30の自律型AIサービスの知られざる実態

[]

現在、僕たちの日常にはすでに多くのAIエージェントが入り込んでいます。単なるチャットボットを超え、自ら目標を設定し、ブラウザを操作し、企業の業務を自動化するシステムが次々と登場している状況です。最近でもOpenClawのような自律型エージェントが悪意ある使われ方をして世界的なニュースになったばかりですね。

そんな中、ケンブリッジ大学のLeon Staufer氏やワシントン大学のKevin Feng氏、MITのStephen Casper氏らの研究チームが非常に重要な論文「The 2025 AI Agent Index」を発表しました。このレポートは、現在展開されている30の最先端AIエージェントシステムについて、1350もの評価項目から技術面および安全面の特徴を解説しています。

今回は、このレポートを読み解きながら、エージェント技術の現在地を分析していきましょう。AIの進化は素晴らしいものですが、企業がどのような情報を公開し、何を隠しているのかを知ることは、今後のテクノロジー社会を生きる上で必須のリテラシーとなります。

この記事の要点

市場の爆発的成長と集中リスク： 分析対象30システムのうち24が2024〜2025年にリリース。一方でほとんどのシステムがOpenAI・Anthropic・GoogleなどのクローズドAPIに依存しており、エコシステム全体に脆弱性をはらんでいる。
自律性の高さと安全停止機能の欠如： ブラウザ型エージェントはL4〜L5の高い自律性で動作し、途中介入や緊急停止の手段を持たないシステムが複数存在する。
安全性情報の深刻な不透明さ： 240の安全性評価項目のうち133で情報が未公開。エージェント専用のシステムカードを公開しているのは30システム中わずか4つ。
ウェブルールの無視と法的リスク： robots.txtを尊重すると明言するのは6システムのみ。Amazonによる提訴など、法的・倫理的問題が現実化しつつある。

エージェント市場の爆発的成長と特定モデルへの依存

AIエージェントのリリースラッシュが続き、市場も爆発的に成長しています。論文で分析された30のシステムのうち、実に24ものシステムが2024年から2025年にかけてリリースされました。Google Scholarでの「AI Agent」関連の論文発表数も2025年だけで過去5年分の2倍以上に跳ね上がっており、研究開発のスピードが異常なペースで加速している状況となっています。

McKinseyの調査によれば、2030年までにAIエージェントが自動化する米国の経済価値は2.9兆ドルに上ると推計されています。調査対象となった1993社のうち、すでに62％の企業がAIエージェントの実験を開始しているというデータもあります。巨大な経済的インパクトを見越して、世界中のテック企業がこぞって自律型システムの開発に膨大な資金を投じているわけです。

しかし、システムを支えるバックエンドのアーキテクチャに目を向けると、ある偏りに気づかされます。30の最先端エージェントのほとんどが、OpenAIのGPT、AnthropicのClaude、GoogleのGeminiといった少数のクローズドな基盤モデルに依存して動いています。独自のモデルを運用しているのは一部のフロンティアラボと中国の開発企業くらいで、残りの企業は他社の強力なAPIを呼び出してエージェントの思考回路を構成しているのです。

⚠️ 特定企業モデルへの依存リスク
基盤モデルのAPIが停止・価格改定・仕様変更された場合、その影響はエコシステム全体に連鎖的に広がります。開発企業は自社プロダクトだけでなく、上流にある基盤モデルの動向までリスク管理に含める必要があります。

Google検索数と論文数の推移。2025年に向けて急激な増加が確認できる。

3つのカテゴリと自律性の実態

今回のレポートでは、30のAIエージェントをユーザーの操作インターフェースに基づいて3つのカテゴリに分類しています。

13

エンタープライズ型

企業業務の自動化

12

チャット型

対話ベースのタスク実行

5

ブラウザ型

GUIを直接操作

各カテゴリにおける「自律性」のレベルの違いに注目してみましょう。研究チームは自律性をL1からL5までの5段階で評価しています。チャット型のエージェントは、ユーザーの入力に対して一度だけタスクを実行して待機する「ターン制」のやり取りが中心となるため、基本的にはL1からL3の低い自律性にとどまっています。対照的に、ブラウザ型のエージェントはL4からL5という極めて高い自律性を持って動作します。

例えばPerplexity CometやBrowser Useなどのブラウザ型エージェントは、一度タスクを指示されると、ユーザーの承認を待つことなく自律的にウェブページを巡回し、ボタンをクリックして処理を進めます。30のシステムのうち5つは、一度実行を開始するとユーザーが途中で介入したり操作を修正したりする手段を提供していません。これはとてもリスキーな状況にあると感じます。

🚨 緊急停止機能の欠如
全体の3分の2にあたる20システムは一時停止や強制終了の仕組みを明記していますが、Alibaba MobileAgentやHubSpot Breezeなど4つのシステムは停止オプションが未記載。エンタープライズ型では、運用中の全エージェントをまとめて一斉停止するしかないケースも確認されています。

チャット・ブラウザ・エンタープライズ型の自律性レベル分布を示すバイオリンプロット

3カテゴリの自律性（L1〜L5）の分布。ブラウザ型の高自律性が際立っている。

企業向けと一般向けで異なる安全性の捉え方

僕がこの論文の中で最も強い危機感を抱いたのは、安全性に関する情報の透明性が決定的に欠如しているという事実です。研究チームが調査した安全性や評価に関する240のデータフィールドのうち、実に133のフィールドで関連情報が一切公開されていませんでした。特にブラウザ型とエンタープライズ型のエージェントにおいて、情報の隠蔽とも言えるブラックボックス化が顕著に現れています。

📊 安全性情報の公開実態

エージェント専用のシステムカードを公開しているのは30システム中わずか4つ（ChatGPT Agent、OpenAI Codex、Claude Code、Gemini 2.5 Computer Use）
25システムは内部の安全性評価結果を一切未開示
23システムは第三者機関による外部テストの実施状況すら未公表

エンタープライズ型のプラットフォームでは、さらに巧妙な責任転嫁が起きています。これらの企業はSOC 2やISO 27001といったデータセキュリティの認証基準を満たしていることを強くアピールしますが、AIエージェント特有の誤動作や暴走リスクに対する評価基準は持っていません。ユーザー側にガードレールの設定や安全管理の責任を委ねており、システム自体が内包する危険性についての説明を避けているように見えます。

「安全性と倫理の枠組みは抽象的なレベルにとどまっており、リスクを厳密に評価するために必要な実証的証拠は選択的にしか開示されていない」
— Leon Staufer氏（ケンブリッジ大学）

企業が安全性をうたう言葉の裏で、本当に必要なデータが隠されている現状を正確に表現した言葉ですね。

赤いセルは情報未公開の項目。ブラウザ型・エンタープライズ型で特にブラックボックス化が顕著。

ウェブのルールを無視するエージェントたち

AIエージェントがインターネットの世界でどのように振る舞っているかという点も、深刻な議論を呼んでいます。外部ツールとの連携において、Model Context Protocolをはじめとする標準規格の導入は20システムで進んでいますが、エージェント自身が何者であるかを名乗るプロトコルは完全に欠如しています。21のシステムは、人間とやり取りする際に自分がAIであることをデフォルトで開示する設定を持っていません。

さらに厄介なのは、自動巡回プログラムを拒否するためのウェブ標準であるrobots.txtの扱いです。クローラーがrobots.txtを尊重すると明言しているのは30システム中わずか6システムにすぎません。ブラウザ型エージェントの多くは、ユーザーの代理として人間と同じようにブラウザを操作するため、ボット対策システムを意図的にすり抜けるように設計されています。これは既存のウェブの秩序を根本から揺るがす行為です。

⚖️ 法的リスクが現実化
Perplexityなどの企業は「アシスタントは人間の代わりにコンテンツを取得しているだけ」と主張しスクレイピング制限を無視。しかしCloudflareの報告ではChromeブラウザの識別子を偽装し大量アクセスを行うケースも。2025年11月にはAmazonがPerplexityを提訴する事態にまで発展しています。

こうした中、OpenAIのChatGPT Agentだけが唯一、RFC 9421に基づくHTTPリクエストの暗号化署名を実装し、自らの身元をウェブサイト管理者に証明する仕組みを取り入れています。他の多くのシステムは依然として正体を隠し、一般のトラフィックに紛れ込んで活動を続けています。このままでは、ウェブ空間は素性の知れない自律型プログラムによって食い荒らされてしまう危険性があります。

モデル・ツール・エージェントの開発と展開の制御が企業間で分断されていることを示す解説図

基盤モデル提供者・プラットフォーム・エンドユーザーにコントロールが分散し、責任の所在が曖昧になっている構造。

透明性の欠如にどう立ち向かうか

このレポートは、強大な能力を持ち始めたAIエージェントの背後にある、無責任とも言えるエコシステムの構造を暴きだしました。基盤モデルのプロバイダー、オーケストレーションを構築するプラットフォーム、そして実際にシステムを稼働させるユーザーなど、それぞれのプレイヤーがシステムのコントロールを部分的にしか持っていないため、問題が起きた際に誰も明確な責任を負わない「責任の所在の曖昧化」が起きています。

AIエージェントは間違いなく未来の労働と経済の主役になります。僕自身、日々の業務をエージェントに任せることで圧倒的な効率化の恩恵を受けていますし、この技術の進化を止めるべきではないと考えています。しかし、安全性や評価データを意図的に隠し、ウェブのルールを無視して成長を急ぐ企業の姿勢を許容することはできません。

テクノロジーの恩恵を最大限に引き出すためには、リスクから目を背けず、徹底した透明性を要求していく必要があります。開発企業にはエージェント特有のシステムカードの公開を求め、利用者側も提供される情報を鵜呑みにせず、事実に基づく厳格な評価を行わなければなりません。僕たちは今、AIと共存するための新しいルールを構築していくフェーズに入っているのです。

「The 2025 AI Agent Index」が示した、AIエージェント市場の全体像と課題の整理。

この記事を共有：