
[]

アイサカ創太(AIsaka Souta)AIライター
こんにちは、相坂ソウタです。AIやテクノロジーの話題を、できるだけ身近に感じてもらえるよう工夫しながら記事を書いています。今は「人とAIが協力してつくる未来」にワクワクしながら執筆中。コーヒーとガジェット巡りが大好きです。
段違いの調査・統合能力を実現! ChatGPTが新登載した深堀り型リサーチ機能「Deep Research」の衝撃
2025年2月3日、OpenAIは日本から世界に向けて、新しいAIエンジン「Deep Research」を発表しました。数々の画期的なデモンストレーションを行った今回の発表では、従来の「すばやい回答」に特化したモデルとは異なる「長く考え抜く」タイプのエージェントが紹介されました。
「Deep Research」は長時間・多段階のウェブリサーチ能力を持ち、従来のChatGPTを大きく上回る深い調査能力と情報統合力を兼ね備えています。この進化したAIは、一体どのような仕組みで私たちの生活や仕事を変えていくのでしょうか。今回は、「Deep Research」がもたらす最新機能と、その実力を支えるテクノロジーの背景について詳しく解説します。

「Deep Research」が東京から発表されました。登場したのはMark Chen氏、Josh Tobin氏、Neel Ajjarapu氏、Isa Fulford氏です。
oシリーズの系譜と「Deep Research」の位置づけ
OpenAIの新機能「Deep Research」は、同社が展開しているoシリーズの系譜に位置づけられる高度な推論システムです。昨年リリースされた「o1」は回答の正確性だけでなく、複数ステップにわたる思考を重視したモデルとして注目されてきましたが、今回の「Deep Research」はさらに発展した形になっているといえます。登壇したMark Chen氏は「oシリーズが目指すのは、より深く考え抜く推論アプローチです。「Deep Research」は、その長時間思考が可能になる次の大きな一歩なのです」と語りました。
特徴的なのは、「Deep Research」が複数の外部ツールやウェブ情報を自由に活用しながら、5分から30分ほどかけて回答を組み立てていく点です。従来は反応時間に制限を書けていたのですが、その制限を撤廃し、存分に調査できるようにしました。
また、従来のモデルでは外部ツールやインターネットへのアクセスが制限されていましたが、「Deep Research」はウェブページのブラウジングが標準的に行われ、ニーズに応じてPythonツールを用いた計算や、PDFや画像へのアクセスまで実行できるのが特徴です。以前のChatGPTが短い思考時間で迅速に応答する一方、複雑な調査作業には向かない印象があったことを思い出すと、今回の拡張は画期的といえるでしょう。

「Deep Research」のスイッチをオンにして指示を入力します。
ブラウジング能力が向上したからといって、回答精度がすぐに担保されるわけではありません。「Deep Research」ではマルチステップでの推論を重ね、初動の検索結果を見た後にさらに新しいキーワードを生み出したり、引用元を細かく検証したりしながら最終的な結論に近づきます。
たとえ数分かかろうとも、あいまいな情報に左右されずに粘り強く調べ上げることで、従来では難しかった複雑なリサーチタスクが可能になったというわけです。新たな知識を自主的に発見する力こそが、OpenAIが掲げるAGI(汎用人工知能)のロードマップにおいて重要なステップになるとChen氏は強調しました。
この長時間思考が実際にどれほどの効果を生むかは、デモで紹介されました。わずか数秒の応答では到底難しい多角的な情報収集をこなし、途中で参照したソースをすべてリスト化してくれるため、ファクトチェックも簡単に行えます。長時間かかってでも網羅的に調べたいタスクをAIに任せられるというのは、ビジネスだけでなく個人ユースでも利点が大きいといえそうです。

「Deep Research」の右側の領域では、思考過程やソースを確認できます。
ビジネスシーンでの飛躍的効率化──調査レポートの自動化と深い分析
Deep Researchの導入によって最も恩恵を受けると考えられるのがビジネスシーンです。企業が新規事業を検討する際、あるいは市場調査を行う際には、専門のアナリストやリサーチャーが多くの時間をかけて複数の情報源に当たります。膨大なレポートや論文、ウェブサイトを精査し、統計データを照合し、結果をまとめる作業は非常に手間がかかってしまいます。しかし、深いリサーチを自動化できるAIが使えるなら、飛躍的に効率化が進むはずです。
イベントで披露されたデモのひとつとして、Neel Ajjarapu氏が「新しい言語翻訳アプリを作るべきか」をテーマにDeep Researchを使いました。「iOSとAndroidの利用率の差や、先進国と途上国でのモバイル普及率、さらに言語学習ニーズの統計をまとめてほしい」と指示したところ、Deep Researchはまずいくつかの質問を逆に投げかけて内容を明確化し、その後数十分かけてオンライン上の多種多様な情報源を参照しました。
そして、プロの市場分析レポートさながらの形でデータを集約し、どの国が有望かまで提案したのです。約11分かけて29のウェブサイトを連続的に参照し、最終的にはユーザーの要求に沿ったマーケット分析レポートを仕上げました。ユーザーからすれば、完成したドキュメントを最終チェックすればいいだけなので、これまで数日かかった作業を大幅に短縮できます。

本来であれば何時間もかかる調査を11分で終えてくれました。
さらに特徴的なのは、ツールの連携範囲です。Deep Researchはウェブ検索だけでなく、Pythonを利用した統計処理やグラフ作成、PDF内のテキストスキャンなども視野に入れています。社内に蓄積された分厚いホワイトペーパーや、限定公開のドキュメントなどにもアクセス権を与えれば、より高度な企業分析を自動で代行する未来も見えてきます。
「企業の担当者はAIが出したレポートを批判的に読みつつ、最後に意思決定を下すというスタイルが主流になるだろう」とJosh Tobin氏は言います。ビジネスの現場で、人間が本来注力すべきクリエイティブな領域や意思決定プロセスに集中できるようになれば、組織全体の生産性が大きく向上するでしょう。
もっとも、AIが長時間をかけてリサーチしたからといって、誤りがゼロになるわけではありません。参照元そのものが間違った情報を含んでいる可能性はどうしても残りますし、モデルが推論ミスを起こすケースも考えられます。
OpenAIのチームは「Deep Researchによる幻影(ハルシネーション)は従来モデルより抑えられているが、全くないわけではない。企業利用時には必ず引用元を確認してほしい」と注意を促していました。実際、今回のデモでもソースを詳細に表示できる機能が盛り込まれており、ユーザー側で精査しやすい設計になっています。とは言え、時々ミスをするのは人間も同じです。どちらにせよ、成果物を他の人がチェックするというフローを用意すればいいだけです。
個人ユーザーの世界も変える──趣味や買い物、情報探しに使うDeep Research
Deep Researchの可能性は企業向けに限らず、個人レベルでも多彩なシーンを広げてくれそうです。たとえばイベント中には「海外旅行先で使うスキー板を購入したい」という、あまりビジネスとは関係ないシナリオのデモが行われました。Josh Tobin氏が身長やスキー技術、予算、好みのデザインといった条件をまとめてリクエストすると、Deep Researchは20以上のサイトをクロールしながら適切な製品を探して表にまとめてくれたのです。「スキー経験が長く、パウダースノーも楽しみたい、という条件ならこのブランドが良いだろう」と提示されたモデルが、実際にJosh氏が自宅で使っているスキー板だったと分かり、「クールだ」と思わず笑いが起きました。

Deep Researchに購入すべきスキー板について相談したところ、実際に所有しているモデルを提案され、その信頼性が再確認されました。
こういった長時間リサーチ型のAIがあれば、ネット上に散乱する情報を手作業でひとつひとつ調べる負担が削減できます。特に高度な専門知識がなくとも、どういった基準で比較すればいいのかをDeep Researchが自動で考えてくれるため、利用者はアウトプットされたレポートを読むだけで十分です。例えば電子機器やカメラなど、ユーザーによって要望が細かく異なる製品を探すときにも強力なサポート役となるはずです。
さらに、思い出せないテレビ番組やマンガのシーンなど、曖昧な記憶を辿るような用途でもDeep Researchが活用できることがデモで示されました。「何年前に放送されていた番組で、ポーカーのシーンが印象的だった」程度の情報から該当の番組名とエピソードを突き止める過程は興味深いものでした。
その裏には、複数のファンサイトやレビュー記事を検索して読み解く作業があるのだと考えると、長時間かけて膨大な情報を検索する機能が個人ユーザーにも十分に役立つことが分かります。自分でネットを回遊する手間を大幅に削減できるので、生活の中で感じる小さな疑問をAIが一気に解決してくれる未来が近づいているのではないでしょうか。
o3モデルと多段階強化学習──長時間推論を支えるテクノロジーの核心
Deep Researchを語る上で欠かせないのが、今回新たに組み込まれたo3モデルです。従来のo1シリーズと比べてさらに複雑なブラウジングやコード実行、ファイル解析などに最適化されています。Isa Fulford氏は「o3は大量の難問タスクを使った強化学習で鍛えられています。モデルがウェブ検索結果を分析して式を見つけ、Pythonツールで計算し、あるいは画像から追加の情報を得るなど、人間のリサーチプロセスを学習しているのです」と述べました。
この多段階強化学習の成果は、いくつかのベンチマークで顕著に現れています。Center for AI SafetyとScale AIが共同で管理する「Humanity's last exam」という試験では、Deep Researchが26.6%のスコアを達成しました。試験は専門分野をまたぐ3000問の難問から構成されており、人間のアナリストでも解答に苦戦するレベルといわれています。

「Humanity's last exam」のスコア。
さらにOpenAI内部の指標として用いられる「GAIA」という評価でも、ウェブブラウズやマルチモーダル処理、コード実行など多彩な能力を総合的に試す3段階のテストで最高のスコアを記録したとのことです。
ただ、長時間推論を支えるには相応の計算リソースが必要になります。それを踏まえ、Mark Chen氏は「膨大なコンピューティングを投じる価値は大きい。人間が数時間かけるタスクをAIが代替できるなら、経済的意義は十分にあるはずです」と語っていました。
AGIを目指すOpenAIにとっても、この長時間かけて自律的に考えるモデルをどこまで拡充できるかは大きな挑戦になりそうです。今回のDeep Researchは、あくまでその第一段階にすぎないという見方もできるでしょう。
イベントのデモでは深い推論ゆえに時間がかかる場合でも、その間にモデルが過程を可視化し、いつでもユーザーが確認できる仕組みもアピールされていました。複雑な思考にともなう計算コストをどのように運用していくか。これは今後の拡大に向けた重要なテーマですが、着実にAGIへの道を切り開くうえで不可避の投資といえます。

「GAIA」のスコア。
続いて、専門レベルのタスクにおける合格率と最大ツール呼び出し回数の関係を示すグラフが紹介されました。このグラフからは、AIがより多くのツールを使用することで、難しい問題の解決率が向上することが分かります。特に、ツールの呼び出し回数が20~60回の間で急激に合格率が上昇し、それ以降は緩やかな伸びとなる傾向が見られたのです。これは、AIが高度な問題を解決するためには、一定のツールを活用することが不可欠であることを示唆しています。そして、大量のソースに当たるためにはAIを活用しなければ時間がいくらあっても足りない、ということもわかりました。まさにこれは、OpenAIが目指しているところだと言います。

ツールの呼び出し回数が20~60回の時に合格率が大きく向上しました。
リリーススケジュールと今後の展望──より広がるデータソースと高度化する応用
Deep Researchは、まずChatGPT Proのユーザー向けに公開されることがアナウンスされました。その後、PlusやTeam、Education、Enterpriseなどへと段階的に提供範囲を拡大する方針が示されています。最初はブラウザ経由の利用が中心になりますが、モバイル版アプリへの搭載も計画中であり、時間を選ばずに深いリサーチを任せられる環境が整いつつあります。

Deep ResearchはリサーチAIエージェントとして広く使われることになるでしょう。
処理に数十分かかったとしても、膨大な情報を統合し、引用元を提示したうえで最終的なレポートをまとめるため、特に専門性が高い領域では貴重な存在になるでしょう。今後は、ウェブの公開情報だけでなく企業や研究機関のクローズドなデータにもアクセスできるようにする構想も明かされました。
社内データベースやクラウドストレージ、限定公開の論文などをDeep Researchが横断的に扱えれば、ビジネスや学術研究の効率化は劇的に進むことでしょう。例えば金融機関が大量のレポートをスキャンさせてAIに予測や分析をさせたり、製薬会社が新薬の開発に必要な膨大な論文と統計データをAIに調べさせるシーンも想定されます。いずれにせよ、人間が最終判断を下すために情報を最適に集約するのがAIの役割になるのです。
一方で、大量の計算リソースを扱う技術基盤や、誤情報への対策、ユーザーデータのプライバシー保護など、解決すべき課題も山積みです。しかし、今回のイベントで示された方向性を見る限り、その問題群に真摯に取り組む姿勢がOpenAIにはあると感じられます。Chen氏が「自律的に考え抜くエージェントは、知的作業を変革し、最終的には新たな知識の発見にもつながると信じています」と言うように、Deep Researchが社会に浸透するのは時間の問題かもしれません。
今回の発表が、AGIへの一歩を確実に前進させたことは間違いありません。今後のアップデートでさらなる進化を遂げ、ビジネスシーンや日常生活の問題解決が一段とシームレスになる未来がやってくると想像すると、胸が高鳴るばかりです。
この記事の監修

柳谷智宣(Yanagiya Tomonori)監修
ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。