AIニュース

OpenAIの新AIエージェント「Operator」がブラウザ操作を自動化――予約や買い物を代行する驚異の実力

[]

OpenAIが生み出したAIエージェント「Operator」――ブラウザを操るAIエージェントの実力

執筆：相坂ソウタ　編集：柳谷智宣

2025年1月24日、OpenAIのSam Altman氏がYouTubeにて新たなAIエージェント「Operator（オペレーター）」を正式に発表しました。Operatorは、AIがユーザーに代わってウェブブラウザを使いこなし、タスクを自動実行してくれる仕組みを備えています。AIエージェントがオンライン予約や買い物などの日常的な用事をはじめ、複雑な操作までを一気に代行する姿は非常に画期的です。まるで人間がパソコンの前に座り、画面を見ながらマウスとキーボードを操作しているかのように動作するこのAIエージェントは、日常生活やビジネスシーンでの生産性を大きく引き上げると期待されています。

今回は、彼らが行ったOperatorのデモや具体的な機能、活用例、安全性を確保するための仕組み、そして研究プレビューから見えてくる今後の展望までを詳しく解説します。

動画にはSam Altman氏に加え、AIチームのYash Kumar氏、Casey Chu氏、Reiichiro Nakano氏の4人が登場しました。

AIエージェント革命が始まる――「Operator」がもたらす新時代の可能性

OperatorはOpenAIが提供を開始した画期的なAIエージェントサービスです。パーソナルアシスタントの概念を一歩進める存在で、キーボードやマウス、画面のピクセル情報といった要素をAIが認識しながら、ユーザーの指示に応じてタスクをこなす点が特長といえます。

すでにOpenAIの有料プランである「Pro」ユーザーを対象に、アメリカ国内でOperatorの提供が始まっています。ヨーロッパ展開にはもう少し時間がかかるというアナウンスがあったものの、近い将来にさらに多くの国・地域で利用が可能になります。

また、数カ月後にはProユーザーだけでなく「Plus」ユーザーにも広く開放する計画が進んでいるとのことです。今の段階では研究プレビューの位置づけですが、OpenAIではかつてChatGPTをリリースしたときと同様に、ユーザーからのフィードバックを迅速に取り込みながらOperatorを進化させる方針を打ち出しています。

同時に、複数のAIエージェントを今後さらに投入する予定があるとサプライズ的に言及されました。Operatorはその第一弾ですが、今後はタスクの種類や専門領域に応じた多様なエージェントが展開される可能性があるようです。動画の中でAltman氏は「これはレベル3のエージェント化への最初のステップだ」とも述べており、Operatorが将来どのように拡張されていくのか、大きな期待を集めています。

Operatorはまず「ChatGPT Pro」ユーザーを対象に提供が始まりました。

ブラウザ操作を自動化する革新性――スクリーンを見てキーボードとマウスを操るAI

Operator最大の特徴は、ウェブブラウザをまるで人間が扱うように制御できる点です。インターネット上のあらゆるウェブサイトを自動的に開き、画像として読み取った画面から必要なボタンやフォームの場所を推定して、キーボードの入力やマウスクリックを行います。特定のAPIを提供しているウェブサービスはもちろん、APIが存在しないサイトに対しても、目視に相当するピクセル分析によってタスクを実行できるのが強みです。

デモでは「（飲食店予約サイトの）OpenTableで今晩19時に2人分のディナーを予約してほしい」と入力すると、Operatorはクラウド上でブラウザを開き、自動的にOpenTableのページにアクセスしました。その後、入力フォームの位置や検索結果を目視で確認するかのように把握し、クリックと文字入力を繰り返して予約ページを進めていきます。

最初、OpenTableはユーザーがバージニアにいると判断していましたが、ChatGPTと同様、カスタム指示にサンフランシスコ在住と入れておくと、自動的に地域情報を合わせてくれる様子が紹介されました。あたかも人間が同じ操作をしているかのようにスムーズに動作しており、驚きです。途中で予約可能な時間帯が変わるなど、予想外の出来事が発生した場合でも、Operatorがユーザーに確認を促しながら修正していく点も印象的です。ちなみに、この処理にかかった時間は50秒ほどでした。

7時の空きがなかったので、Operatorが7時45分でいいか？とユーザーに聞いてきました。

次のデモでは、手書きの買い物リストを写した画像ファイルをOperatorに読み込ませ、「このリストの商品を買ってきて」と指示しました。すると、画像解析によって卵やほうれん草、鶏もも肉などのテキスト情報を抽出し、Instacart上で商品を探してカートに入れてくれる様子が紹介されていました。

ユーザーが途中で画面操作に割って入り、「卵を1パック追加したからよろしく」というような指示を出すと、Operatorがその変更を認識し、最終的な購入内容を確定する流れもスムーズに行われていました。

手描きのメモの写真をOperatorにアップし買い物をしてもらいます。

Instacartというネットショップで次々と自動で商品をカートに入れて行きます。

続いて、スポーツチケット購入の例では、StubHubを利用して週末のゲームを最適な価格と座席ランクで探していました。複数の候補が表示されるとOperatorがユーザーに「どの席にしますか」と確認し、希望を入力するとそのまま購入フローへ移行します。チケットサイトへのログインや決済処理といった個人情報やカード情報を扱う段になるとユーザーが手動で画面を引き継ぐ仕組みになっており、セキュリティ面にも配慮があると感じられます。

さらに清掃サービスの手配やフードデリバリーの注文など、多彩なウェブサービスをOperatorが連続して行うデモも見どころでした。複数のブラウザタブを立ち上げて並行処理を行い、ユーザーに完了報告を行うタイミングも最適化されています。手のかかる複数の用事を効率良くまとめて済ませてくれる点は、忙しい人にとって強い味方になりそうです。

StubHubでNBAのチケットを取るデモが行われました。決済処理はユーザーが行うので安心できます。

Computer-Using Agent（CUA）の仕組み――GPT-4.0を拡張した画期的モデル

Operatorを支える中核技術として、Reiichiro Nakano氏が「コンピュータ使用エージェント（CUA）」というモデルの存在を紹介しました。CUAはGPT 4oを基に開発されており、ブラウザやOSを人間と同じように扱うことを学習しています。特定のAPIをコールして処理する従来のやり方ではなく、画面を画像情報として取得し、次に取るアクションを決定してからマウスやキーボードの操作を行うというプロセスを繰り返すのです。

たとえばInstacartの検索バーに「spinach」と入力して商品一覧を表示し、そこから目的の商品を見つけてカートに追加するまでの工程を、すべてスクリーンショットから得られる視覚情報を手掛かりに処理します。これは人間がウェブサイトを見ながら操作する方法と全く同じ要領です。

CUAはまずスクリーンショットを認識し、状況を推測する内部プロセスをサマライズされたチェーン・オブ・ソートとして組み立て、次に「ここでクリック」「ここにテキストを入力する」といった具体的アクションを実行します。そして再びスクリーンショットを取得し、状態が更新されたかを確認しつつ目標に近づいていくわけです。

こうした自律的な操作を可能にするCUAの性能を評価するベンチマークとして、動画の中では「OSworld」と「WebArena」という2つの指標が紹介されました。OSworldはLinuxを含む一般的なOS操作のテストであり、CUAはここで38.1％のスコアを出したとのことです。人間の平均スコアが72.4%であるため、まだ差はありますが、それでも既存の公開モデルより高い性能を示していると評価されています。

一方のWebArenaでは、CUAが58.1％を達成しました。こちらも人間の水準には届かないものの、スクリーンショットだけを頼りに各種ウェブサイトを操作するという難易度を踏まえると、CUAの技術レベルの高さが伺えます。今後、さらに学習データを増やしたりモデルを改良したりすることで、人間に近いか、あるいはそれ以上の効率的な操作が実現することでしょう。

既存の技術よりもOpenAIのCUAの方が高性能と紹介されました。

安全性とユーザーコントロール――誤操作や不正リクエストを防ぐ仕組み

Operatorのような高度なAIエージェントが台頭するとき、誰もが気にするのがセキュリティと誤操作に関する懸念です。その点に関して、OpenAIチームは確認プロセスや人間の手動による介入を明確に取り入れていると紹介しました。

たとえば予約や注文といった取り消しの手間が生じる操作、あるいは支払いを要する大きな操作については、Operatorが実行前に必ず「本当にこの手続きを続けますか」と尋ねてきます。こうした確認手順によって、ユーザーが意図しないまま不必要な支出が発生するのを回避するのです。また、リアルタイムで行動を監視し、以上がないか確認する「ウォッチモード」も搭載されています。

また、ウェブサービス側が明らかに不正である場合や、怪しい挙動を誘導するようなケースをブロックする仕組みも搭載されているようです。例えば、ユーザーが違法な物品を購入しようと依頼した場合、タスクの実行を拒否したり、不正使用が発生した場合でも後から検出し、対応します。

動画中では「Prompt Injection Monitor」がウイルス対策ソフトのように働き、明らかに不自然な操作を検出した段階でプロセスを停止させる設計を紹介していました。これは、外部の悪意あるサイトがユーザーのOperatorを逆に操作しようとするリスクを軽減する意味でも重要です。

さらに、ユーザーのプライバシー保護の観点からも慎重なアプローチを取っています。Operatorがクラウド上で動作する際に利用するブラウザは、ユーザーがログインしているセッションを人間がパソコンで使う場合と同等の形で一時的に保持しています。

ユーザーが「Take Control」ボタンを押して手動操作に切り替えると、その作業内容は基本的にOperator側からは見えないようになっていると解説されていました。つまり、個人情報やクレジットカード情報などを入力するときはOperatorを一時停止して自分で操作すればよい仕組みです。こうした段階を踏む設計によって、ユーザーは必要なところだけAIに任せ、必要なところは自分で対応するというハイブリッドな使い方が可能になります。

Operatorのタスク処理中でも、ユーザーがコントロールを得て画面を直接操作できます。

研究プレビューから生まれるさらなる可能性――AIエージェントの未来

Operatorは研究プレビューという位置づけで登場しますが、これはOpenAIが新しいサービスを世の中に広める際によく採用する手法です。ChatGPTがそうであったように、まずは限定的なユーザー層と地域でサービスを開始し、そこで得られた膨大なフィードバックを踏まえて急速にブラッシュアップしていくわけです。今回のデモでも、Sam Altman氏が「まだまだ不完全で恥ずかしい失敗もするが、一刻も早く実地で使ってもらいたい」と語っていました。試しに使ってみるユーザーが増えれば増えるほど、Operatorの学習サイクルは加速していき、さまざまな状況やウェブサイトへの対応力が向上すると考えられます。

すでに今後数カ月以内にさらに改善されたモデルを投入し、料金の引き下げや対象地域の拡大なども進める見込みとのことです。同時に、今回のOperator以外にも複数のエージェントを予告していることから、ユーザーのニーズに合わせた専門エージェントが次々と出てくるかもしれません。たとえばマーケティングリサーチに特化したエージェントや、SNS運用に特化したエージェントなど、Operatorに類似しながらも特定領域に深く踏み込むサービスが登場する可能性も考えられます。

こうしたAIエージェントの発展を見据えると、「本当に欲しいタスクをただ口頭や文章で伝えれば、あとは勝手にやってくれる」という日常が近づいていると実感します。人間がパソコン画面に向かってキーボードやマウスを使う動作そのものが、将来的には高度なAIに代替されていくかもしれません。今回のデモが初めの一歩に過ぎないと考えると、今後どこまで可能性が広がるのか、非常に楽しみです。

この記事を共有：