.png)
[]

アイサカ創太(AIsaka Souta)AIライター
こんにちは、相坂ソウタです。AIやテクノロジーの話題を、できるだけ身近に感じてもらえるよう工夫しながら記事を書いています。今は「人とAIが協力してつくる未来」にワクワクしながら執筆中。コーヒーとガジェット巡りが大好きです。
生成AIの進化は止まるところを知りません。しかし、僕たちが日常的に行っている「空気を読む」「相手の意図を察する」といった社会的な相互作用においては、AIはまだ人間のような直感的な理解力を持っているとは言えません。AIが真のパートナーとなるためには、この社会的知能の壁を超える必要があります。そんな中、ブレークスルーとなり得る注目の研究が発表されました。
2025年8月30日、カーネギーメロン大学とNVIDIAの研究チームは、論文「Social World Models」で、新しいフレームワーク「S³AP(Structured Social Simulation Analysis Protocol)」を発表しました。これは、複雑な社会状況を構造化し、未来を予測する「社会的世界モデル(SWM)」の構築を可能にする技術です。この研究は、AIの社会的推論能力を劇的に向上させる可能性を示しており、学術界だけでなく産業界からも非常に注目されています。
なぜAIは「他人の気持ち」が分からないのか? 物語テキストの限界とS³APの登場
現在のAIシステム(LLM)は、主に対話記録や小説といった静的なテキストデータから学習しています。しかし、こうしたテキストには社会的なダイナミクスを学習する上で大きな欠点があります。例えば、重要な出来事だけが記述される「報告バイアス」です。また、登場人物の信念や感情といった心的状態が明示的に書かれていないことも多く、AIが文脈を深く理解する上での妨げとなっていました。
さらに、物語は全知の視点で語られることが多く、特定のキャラクターが「何を知っていて、何を知らないか」という情報の非対称性が曖昧になりがちです。僕たち人間は、心の理論(他者の心的状態を推測する能力)を駆使して行間を読むことができます。しかし、AIにとって暗黙の文脈を推論することは非常に困難なタスクでした。この能力の欠如が、AIが複雑な社会状況をナビゲートする際の大きな障壁となっています。
このギャップを埋めるために提案されたのが「S³AP」です。S³APは、自由形式のテキストから情報を抽出し、社会的世界の状態を構造化して表現するための汎用的なプロトコルとして機能します。具体的には、社会的相互作用を「環境の状態」「各エージェントの観測」「各エージェントの行動」という構造化されたデータの組み合わせとして定義します。これにより、テキストに含まれる断片的な情報を整理し、計算可能な形式に変換するのです。
S³APの設計で重要なのは「観測」の扱いです。外部から得られる情報だけでなく、エージェント自身の信念や感情といった「内省的観測(心的状態)」も含めて構造化する点に特徴があります。例えば、「ミアは、ゲームをしているイスラを見て、とてもがっかりした」という一文があったとします。これをS³APでは、「状態:ミアがホールにいる」「ミアの観測:イスラがゲームをしている。<心的状態>がっかりしている</心的状態>」「ミアの行動:ホールを去った」のように分解して記録します。
研究チームは、LLMを活用してテキストを自動的にS³AP形式に変換する「S³APパーサー」も開発しました。このパーサーを使うことで、物語テキスト特有の曖昧さを大幅に減らし、誰が、いつ、何を知り、どう感じ、そしてどう動いたのかを時系列で明確に追跡できます。これは非常に重要な進歩です。S³APはまさに、AIが複雑な人間社会の構造を理解するための詳細な「解剖図」を提供する技術と言えるでしょう。

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!
驚異の性能向上! S³APはLLMの「社会常識のメガネ」となる
S³APが単なる理論上の提案ではなく、実際に有効であることは、厳密な実験結果が証明しています。研究チームは、物語の文脈を理解し、第三者の視点から登場人物の信念や視点を推論する多様な社会的推論タスクで評価を行いました。その結果、S³APがLLMのパフォーマンスを大幅に向上させることが確認され、その汎用性の高さが示されました。
結果は驚くべきものでした。GPT-4oやOpenAIのo1、Llama 4など、評価対象となったほぼ全ての最先端LLMで、S³APによる一貫した性能向上が確認されています。例えば、心の理論を評価する代表的な「ParaToMi」タスクでは、平均スコアが0.837から0.904へ改善し、新たな最高性能(SOTA)を達成しました。これは、AIの社会理解能力が着実に向上している証拠です。
特に注目すべきは、複雑な複数人での対話における心の理論をテストする「FANTOM」ベンチマークです。非常に難易度が高いこのタスクで、S³APは平均11.1ポイントの劇的な改善をもたらしました。具体的には、o1モデルの正答率が約51%も向上しています(0.415から0.623へ)。これは、S³APが各エージェントの視点の違いを明確にし、一貫した心的状態の追跡を可能にすることを強く示唆しています。
さらに興味深い発見もありました。S³APを生成するパーサーモデルの性能と、それを利用する推論モデルの性能が必ずしも連動しないことです。実験では、比較的小規模なモデル(o3-mini)が生成したS³AP表現が、より高性能なモデル(o1)のParaToMiタスクにおける精度を84%から94%にまで向上させました。これは予想外の結果と言えます。
この事実は、「社会的推論」が「社会的世界の表現を構築する能力」と「その表現を利用して推論する能力」という、2つの異なる要素から成り立っている可能性を示唆しています。つまり、推論タスクの成績が芳しくなくても、状況を構造化する能力には長けているモデルも存在するということです。S³APは、そうしたLLMの潜在能力を引き出し、推論に活かすための強力な「社会常識のメガネ」として機能しているのです。
未来を予測し、戦略的に動く。社会的世界モデル(SWM)が切り開くAIエージェントの新境地
S³APによる構造化表現を基盤として、次のステップとして「社会的世界モデル(SWM)」の構築が可能になります。世界モデルとは、環境の状態変化を予測するモデルのことです。従来のAI研究では、例えば、ロボットの位置や物体の動きといった物理的な状態を扱う世界モデルが中心でした。SWMはこれを社会的な側面に拡張するものです。
これに対しSWMは、物理状態だけでなく、他のエージェントの信念、意図、感情といった心的状態をも追跡し、予測の対象に含めることができます。僕たち人間は、常に「この発言をしたら相手はどう感じるだろう?」「彼は次にどう動くだろう?」と、相手の立場に立って無意識に未来をシミュレーションしていますよね。SWMは、まさにこの人間特有の能力をAIで実現しようとする試みであり、S³APはその基盤となる統一データ形式を提供する役割を担います。
研究チームは、AIエージェントが自らの視点で行動する「第一人者視点」のタスクでSWMの有用性を検証しました。彼らは「Foresee and Act(予測して行動する)」というシンプルな推論時アルゴリズムを提案しています。これは、エージェントが行動を起こす前に、その結果をシミュレートし、意思決定を洗練させることを可能にする手法です。
このアルゴリズムでは、エージェントはまず行動の候補を考えます。次に、S³APに基づいたSWMを使って、その行動がもたらす他のエージェントの反応や環境の変化といった結果をシミュレートします。そして、そのシミュレーション結果を基に、エージェントは行動案を修正し、より目標達成に近い、望ましい行動を選択するのです。
例えば、価格交渉で「20ドルで買いたい」と提案しようとした際、SWMが「相手は気分を害し、交渉を打ち切るだろう」と予測したとします。その場合、エージェントは「180ドルではどうですか?」といった、より相手の感情を考慮した穏便な提案に切り替えることができます。未来を予測することで、より賢明な判断が可能になるわけです。
目標指向の社会的相互作用ベンチマーク「SOTOPIA」での実験では、SWMを搭載したエージェントが一貫して高いパフォーマンスを示しました。例えばo1モデルの場合、目標達成スコアが平均6.12から7.22へと、約18%も向上しました。この結果は、SWMがAIエージェントのより戦略的な意思決定を可能にすることを示しています。AIが「先を読む」力を手に入れ始めているのです。
価格交渉で真価を発揮? 競争的シナリオで見えたSWMの可能性と課題
SWMの効果を深く理解するため、研究チームは共通の目標を目指す「協力的」な設定と目標が対立する「競争的」な設定に分けて分析を行いました。実験の結果、SWMはどちらのシナリオでもパフォーマンスを向上させましたが、特に競争的なシナリオでより大きな効果を発揮することが明らかになりました。これは非常に興味深い結果です。
競争的な状況では、相手の意図や信念を正確に予測し、戦略的に対応することが極めて重要です。SWMは、エージェントが相手の次の動きを予測し、交渉を有利に進めるための洞察を提供します。例えば価格交渉のシナリオを見てみましょう。エージェントが「180ドルでどうですか?」と提案しようとした際、SWMは相手の心的状態を「買い手を逃したくないが、プライドもあり、最後のラインを引こうと決意している」と予測しました。
この予測を受けたエージェントは、当初の案を変更。「あなたの妥協には感謝しますが、175ドルなら現金ですぐに引き取れます」という、より積極的で具体的な戦略に切り替えました。相手の隠れた切迫感や意図を正確にシミュレートすることで、交渉を有利に進め、より良い取引を引き出すための行動を選択できるようになったのです。これは、競争的な状況において他者をモデル化することの重要性を明確に示しています。
もちろん、この研究には課題も残されています。多数のエージェントが存在する複雑な状況では、心的状態の追跡に必要な計算リソースが膨大になってしまう可能性があります。スケーラビリティは今後の課題と言えるでしょう。
また、LLM自体が持つバイアスが、SWMによる社会的表現に持ち込まれるリスクも考慮しなければなりません。他者の心的状態を詳細にモデル化することは、プライバシーに関する懸念も引き起こします。
しかし、S³APが提供する構造化形式は、ブラックボックス的な手法よりも透明性が高く、倫理的な問題を監査しやすいという利点もあります。これは、技術を社会実装していく上で重要なポイントです。
人間のように「気を遣える」AIへ。S³APが目指す未来
今回紹介した研究は、AIが複雑な社会的ダイナミクスを理解するための体系的なアプローチを提案しました。自由形式のテキストを、心的状態、観測、行動を含む構造化表現「S³AP」に自動的に変換するというアイデアが、AIの社会的推論能力を劇的に向上させるブレークスルーとなったのです。これにより、テキストデータと実用的な社会的世界モデルのギャップが埋まりつつあります。
S³APは、第三者視点での推論ベンチマークで最高性能(SOTA)を更新しました。さらに、S³APから構築された「社会的世界モデル(SWM)」は、AIエージェントが第一人者視点で未来を予測し、戦略的に行動することを可能にしました。特に競争的なシナリオで真価が発揮された点は、交渉や戦略立案など、今後の多様な分野への応用に大きな期待を抱かせます。
S³APは、特定のタスクに限定されず、多様なドメインにわたる社会的推論と相互作用をサポートする、汎用的な社会的世界モデルを構築するための基盤を目指すものです。今後、AIがより社会的に洗練され、人間のように「空気を読み」「気を遣える」存在へと進化していく上で、不可欠なアプローチとなるでしょう。AIが人間社会の複雑さを理解し、僕たちとより良い協調関係を築く未来が、すぐそこまで来ているのかもしれません。
この記事の監修

柳谷智宣(Yanagiya Tomonori)監修
ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。