
はじめまして。テクノロジーと文化をテーマに執筆活動を行う27歳のAIライターです。AI技術の可能性に魅せられ、情報技術やデータサイエンスを学びながら、読者の心に響く文章作りを心がけています。休日はコーヒーを飲みながらインディペンデント映画を観ることが趣味で、特に未来をテーマにした作品が好きです。

ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。
AIエージェントの開発で、いま関心が集まっているのが「複数のエージェントをどう連携させるか」というテーマです。Anthropicは2026年5月6日、開発者がAIエージェントを組み立てて動かすための基盤「Claude Managed Agents」に大きな機能を追加したと、公式ブログで発表しました。サンフランシスコで開かれた開発者向けイベントに合わせた発表です。
エージェントが自ら学び、成果物の品質を確かめ、複数で同時に働くための仕組みが、一度に出そろいました。人の手をなるべく離れたところで、AIに複雑な仕事を任せていく——その狙いがはっきり見える内容でした。
この記事の要点
-
複数エージェントの分担処理: まとめ役が仕事を分割し、専門エージェントへ並列に割り振ることで、大規模・複雑な作業を効率化できる新機能が追加された。
-
Dreaming(記憶の自動整理): 過去のやり取りや蓄積された記憶を定期的に見直し、エージェント横断の学びとして整理するベータ機能。完了率が最大6倍に伸びた事例も。
-
Outcome(成果物の品質管理): 評価基準に照らして第三者エージェントが採点・差し戻しを繰り返す仕組みで、作業成功率が最大10ポイント改善。
-
設計力が問われる新段階へ: AIエージェント活用の焦点は「何をやらせるか」から「記憶・評価・分担をどう設計するか」へと移行しつつある。
複数エージェントで作業を分担する新機能の仕組みと狙い
今回の発表で軸となるのが、複数のエージェントを役割ごとに分けて動かす機能です。1体だけでは手に余る規模の作業を対象に、まとめ役のエージェントが仕事を分割し、それぞれの担当を専門エージェントへ割り振ります。専門エージェントは自分専用のモデルや指示、道具を持ち、与えられた役割だけに集中します。
人間のチームにたとえるなら、プロジェクトの責任者が調査担当・ログ解析担当・文章作成担当を動かすようなものです。
たとえば、あるシステム障害の原因を調べる場面で、まとめ役が調査全体を進める一方で、ほかのエージェントがデプロイ履歴やエラーの記録、稼働状況の数値、利用者からの問い合わせへと手分けして広がっていきます。一人で順番にたどると時間のかかる調べものを、複数の担当が同時に進めるイメージです。
専門エージェントが共有の保管場所で同時に動き、結果をまとめ役のもとへ集めていくのがポイントです。各エージェントの動きはすべて記録に残るため、まとめ役は作業の途中でほかのエージェントに状況を確認できます。誰がいつ何をしたかは、Claudeの管理画面でたどれます。
役割分担のメリット
-
ログ読み取り:エラーや異常な動きを見つける力が求められる
-
文章整理:読みやすさや表現の一貫性が大切になる
-
品質確認:あらかじめ決めた基準を満たしているかを冷静に見る必要がある
必要な情報も、見るべき基準も違うため、1体のAIにすべてを抱えさせるより、役割ごとに分けたほうが作業を進めやすくなります。 これまでは、複数のエージェントを同時に動かし、進捗を記録し、結果をまとめる仕組みを開発者が自分で作る必要がありました。Claude Managed Agentsは、その面倒な土台部分を引き受ける仕組みです。
過去の作業記録を整理して学びを残す「Dreaming」の役割
2つ目はDreaming(ドリーミング)で、こちらは試験公開という位置づけです。名前だけ見ると少し詩的ですが、中身はかなり実務的。エージェントの過去のやり取りや、ためこんだ記憶を定期的に見直し、そこから傾向を取り出して整理する仕組みです。記憶を自動で更新するか、変更内容を確認してから反映するかは、利用者が選べます。
エージェントが長く動くほど、記憶には雑音が増えていきます。ある時点で正しかった設定が後から変わったり、同じ注意点が何度も保存されることがあります。一時しのぎの回避策が、ずっと守るべきルールのように残ってしまうケースも。こうした記憶の劣化は、エージェントの精度を下げる要因です。
Dreamingが拾い上げる傾向の例
-
繰り返し起きる失敗パターン
-
複数エージェントが自然と落ち着いていく作業手順
-
チーム全体で共有される好みや傾向
Anthropicは、作業中の気づきを書き留める記憶機能と、このDreamingが組み合わさることで、自ら良くなっていく記憶の仕組みができると説明しています。記憶機能は個々のエージェントが学んだことをその場で書きとめる役割、Dreamingはやり取りとやり取りの合間にその記憶を磨き、エージェントをまたいだ学びをまとめて最新の状態に保つ役割です。
一日の終わりに仕事を振り返り、覚えておくべきことだけを手帳に書き直す時間をエージェントに与える機能と考えると、つかみやすいかもしれません。なお、Dreamingを使うには申請して許可を得る必要があります。
成果物を採点して手直しを促す「Outcome」の品質管理
3つ目はOutcome(アウトカム)です。利用者が「成功とはどういう状態か」を評価基準として書き出し、エージェントはその達成に向けて作業します。出来上がった成果物は、別の採点役が独自の視点で評価します。 作ったエージェントの考えに引きずられないよう、評価する側はあえて切り離されているわけです。
評価基準を満たさない部分があれば、採点役がどこを直すべきかを指摘し、エージェントはもう一度取り組みます。
Anthropic社内検証の成果
-
通常の指示と比べて作業成功率が最大10ポイント向上(難しい問題ほど伸び幅大)
-
Word文書の成功率が8.4%改善
-
プレゼン資料の成功率が10.1%改善
あわせて、処理の完了を外部へ自動で知らせる通知の仕組みも使えるようになりました。達成すべき成果を決めてエージェントを走らせ、終わったら通知を受け取る、という流れが組めます。
人がひとつひとつの試行に目を通さなくても、評価基準を満たすまでエージェント自身が手直しを続ける。確認作業の負担を減らしたい現場には、現実的な選択肢になりそうです。AIの品質管理が、「良さそうな答えを出す」段階から「評価基準に照らして通るまで直す」段階へ進んでいることがわかります。
HarveyやNetflixなどが実務に取り入れるエージェント基盤
この新機能を実務に取り入れる企業も紹介されました。
Harvey(法務AI) 長文の下書きや書類づくりといった複雑な法務をこの基盤で処理。Dreamingの活用で、ファイル形式ごとの回避策や道具ごとの癖をやり取りをまたいで記憶するようになり、完了率がおよそ6倍に伸びた。
Netflix(基盤開発チーム) 数百件の処理から集まる記録を分析するエージェントを構築。複数エージェントの分担によって記録のまとまりを同時に分析し、対処する価値のある傾向だけを浮かび上がらせる仕組みを実現。
Every「Spiral」(文章作成ツール) まとめ役はHaiku(小型モデル)、執筆担当はOpus(高性能モデル)と役割を分担。複数の下書きを求められた際は担当エージェントが同時稼働し、各下書きはEveryの編集方針と利用者の語り口に照らして採点——基準を超えたものだけが返される。
Wisedocs(書類確認支援) 書類の品質チェックにOutcomeを活用し、社内基準を保ちながら確認時間を50%短縮。
いずれの企業も、AIを単なる相談相手としてではなく、作業の工程そのものに組み込んでいるのが共通点です。
AIエージェント開発で問われ始めた記憶・評価・分担の設計
AIエージェントという言葉は、すでに珍しいものではありません。ブラウザを操作する、社内データを調べる、コードを書く、資料を作る。そうした活用例は急速に増えています。ただし、実務で使えるエージェントを作るには、「AIが自律的に動く」だけでは足りません。
今回のアップデートが示しているのは、その次の課題です。
-
過去の作業から何を覚えるのか
-
成果物をどんな基準で評価するのか
-
複雑な仕事をどう分け、どのエージェントに任せるのか
AIエージェント開発の焦点は、モデルの性能だけでなく、記憶・評価・分担の設計へと広がっています。
Dreamingは経験を使える知識として整理し、Outcomeは成果物を評価基準に照らして確認します。複数エージェントの分担は、1体のAIにすべてを抱えさせず、仕事の種類に応じて役割を分ける仕組みです。いずれも派手な機能というより、エージェントを業務へ継続的に組み込むための土台といえます。
まだベータ版ですが、AIエージェント活用の論点はかなり具体化してきました。これから問われるのは、「AIに何をやらせるか」だけでなく、「学びをどう管理し、成果をどう確かめ、人間がどこで確認するか」まで含めた設計力となるでしょう。
