AIと細かいルールで仕事はうまくいくか？388人実験で見えた共同作業の落とし穴

[]

📌 この記事の要約

AIの「使い方」を細かく決めたグループが苦戦

提出率26.8%が未提出という衝撃の数字

「思考パートナー研修」は個人作業では効いた可能性

AI導入に必要なのは「小さく試す態度」

　2026年4月9日にarXivで初回公開され、4月19日に改訂版が公開されたMicrosoft CorporationのAlex Farach氏、Alexia Cambon氏、Lev Tankelevitch氏、Connie Hsueh氏、Rebecca Janssen氏による論文「Scaffolding Human-AI Collaboration: A Field Experiment on Behavioral Protocols and Cognitive Reframing（人間とAIの協働を支える：使い方の手順とAIの見方を変える研修に関するフィールド実験）」は、企業のAI導入にかなり実務的な警告を投げかけています。

　生成AIを導入した企業では、ツールを配っただけでは成果がそろわないという悩みが出ています。では、使い方を細かく決めればよいのか。それとも、AIを「検索ツール」ではなく「思考パートナー」と見なすように研修すればよいのか。

　研究チームは、Fortune 500企業の小売企業Gap Inc.で、388人の従業員を対象に、実際の職場での実験を行いました。全員が同じMicrosoft Copilotを使える状態で、変えたのはAIそのものではなく、「どう使わせるか」です。結果は少し意外なものでした。ペアで決められた手順どおりにAIを使ったグループでは、自由にAIを使ったグループに比べて、文書の提出率と品質が低くなりました。一方で、AIを「思考パートナー」として捉える研修は、個人作業では上位品質の文書を作る助けになった可能性があります。

　ただし、この結果は単純に「ルールを決めたから悪くなった」「思考パートナー研修だから良くなった」と読めるものではありません。時間帯の違い、指示どおりに進められなかったケース、提出しなかった参加者の影響、AI採点が文章の長さに左右される可能性など、いくつかの制約があります。そこまで含めて読むことで、この論文の実務的な意味が見えてきます。

自由にAIを使ったグループと、決められた手順でAIを使ったグループで、課題Aと課題Bの進め方をどう変えたかを示す実験設計図。画像は論文より。

同じCopilotでも、「使わせ方」を変えて比較した

　実験参加者は388人で、194組のペアに分けられました。全員がMicrosoft Copilotを使える状態です。研究チームが見たかったのは、Copilotそのものの性能ではありません。AIを仕事に組み込むとき、周囲にどんな手順や研修を置くと結果が変わるのか、という点です。

　課題は2つありました。Task A、ここでは課題Aと呼びますが、これはペアで30分以内に「AI導入アクションプラン」を作る課題です。もう一つのTask B、課題Bは個人作業で、AI導入に不安を持つ関係者にどう説明するかを考える課題です。

　課題Aでは、一方のグループはCopilotを自由に使いました。もう一方のグループは、「Create-Out-Loud」という決められた共同作業の手順に沿って進めました。Microsoft Teamsで同じ時間に話し合い、その会話の文字起こしをもとにCopilotへ初稿を書かせる流れです。課題Bでは、自由利用グループが通常のCopilot機能研修を受け、手順指定グループはAIを単なる操作対象ではなく「思考パートナー」として扱う研修を受けました。

　ここで大事なのは、研究が「Copilotが良いか悪いか」を測ったわけではないことです。両グループとも同じAIにアクセスできます。比較したのは、AIを自由に使わせるのか、共同作業の手順を決めるのか、あるいはAIへの見方を変える研修をするのか、という周辺設計です。AI活用の成否は、モデル性能だけでなく、人間側のワークフローや認知の置き方にも左右される。そんな前提をかなり現場に近い形で試した実験と言えます。

課題Aと課題Bで、それぞれのグループの文書提出率に差が出たことを示す表。

細かい共同作業の手順を入れたグループでは、提出率も品質も低かった

　最も目を引くのは、ペアで取り組む課題Aの結果です。自由にAIを使ったグループでは、97組中93組が文書を提出しました。一方、決められた手順でAIを使ったグループでは、提出できたのは97組中71組にとどまりました。提出できなかった割合で見ると、自由利用グループは4.1％、手順指定グループは26.8％です。つまり、手順指定グループでは、そもそも期限内に文書を作り終えるところでつまずいたペアが多かったのです。

　提出された文書だけを見ても、AI採点上の品質差は明確でした。課題Aの文書品質スコアは、自由利用グループの平均が15.63点だったのに対し、手順指定グループは10.68点でした。差は4.96ポイントです。評価はGPT-4o-miniに3回採点させ、その真ん中の点を使っています。機会の特定、リスクの特定、アクションプランの品質、戦略的な洞察という4つの項目すべてで、手順指定グループの平均が下回りました。

　なお、この品質分析は、文書を提出できたペアだけを対象にしています。提出できなかったペアまで含めた全体の影響とは分けて読む必要があります。ただし、提出率と提出文書の品質の両方で差が出たことを考えると、決められた共同作業の手順が、この条件ではかなり重い負荷になっていた可能性があります。

　つまり、ペアで話し合い、会話ログを作り、それをAIに渡して下書きさせるという流れは、少なくともこの実験条件ではうまく機能しませんでした。論文では、同じ時間に集まる会議、口頭での議論、会話ログをもとにしたAIへの下書き依頼といった段取りの負荷が、共同作業の利点を上回った可能性が指摘されています。AIをチームに入れるとき、手順を厳密にすれば自然に成果が上がるわけではないのです。

課題Aで、文書品質の総合点と4つの採点項目すべてが、決められた手順でAIを使ったグループで低かったことを示す表。

各採点項目の詳細比較。4項目すべてで手順指定グループが下回った。

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう！

無料で天秤AI by GMOを試す

AIを思考パートナーと見る研修は、個人作業では効いた可能性がある

　一方で、個人で取り組む課題Bでは、少し違う結果が出ています。課題Bでは、AIを「思考パートナー」として使う研修を受けたグループと、通常のCopilot機能研修を受けたグループが比較されました。提出された文書の平均点を見ると、通常研修グループは17.3点、思考パートナー研修グループは18.1点でした。思考パートナー研修グループのほうが少し高いものの、統計的に明確な差とは言えません。

　ただ、この課題では68.1％の文書が満点の20点を取っていました。満点が多すぎて、平均点では差が見えにくい状態です。そこで研究チームは、「満点を取れたかどうか」でも分析しました。すると、満点率は通常研修グループが61.8％、思考パートナー研修グループが77.0％でした。統計モデル上は、満点文書を作る見込みが約2倍になるという結果です。論文ではオッズ比2.07、15.2ポイントの差と報告されています。

　ただし、ここはかなり慎重に読む必要があります。この「満点を取れたかどうか」という見方は、結果を見た後に追加された分析です。また、課題Bでも提出しなかった参加者に差があり、その影響を厳しめに見積もると、この効果は十分に固いとは言い切れません。つまり、「思考パートナー研修は確実に効いた」と断言するより、「個人作業では効いた可能性がある」と読むのが安全です。

　それでも、AI研修の現実的なヒントはあります。AIを「正しく操作する道具」として教えるだけでなく、「一緒に考える相手」と捉え直す研修は、個人の文書作成にはプラスに働く可能性があります。ここに、企業のAI研修を考えるうえで大事な示唆があると感じました。細かな手順を押し付けるより、AIに文脈を渡し、対話を重ね、出力を問い直す姿勢を教えるほうが、仕事の現場では使いやすい場面がありそうです。

AIへの見方がどう変わったかを示す図。思考パートナー研修を受けたグループでは変化が大きく見えるが、論文は課題Aでの摩擦から回復しただけである可能性も指摘している。

研修によるAIへの見方の変化の詳細比較。

AIへの見方は、本当に研修で変わったのか

　論文は、参加者のAIへの見方もアンケートで測っています。思考パートナー研修を受けたグループでは、「AIを使って探索や実験をしてみたい」という見方や、AIに対する全体的な前向きさが、課題Aの後から課題Bの後にかけて大きく改善しました。数字だけ見ると、AIを思考パートナーとして捉える研修が、前向きな態度を生んだようにも見えます。

　ただし、研究チームはこの解釈にもブレーキをかけています。最初のアンケートは、実験開始前ではなく課題Aの後に行われました。決められた手順でAIを使ったグループは、課題Aで摩擦の大きい共同作業を経験し、そこでフラストレーションを抱えた可能性があります。つまり、課題B後の上昇は、研修で新たにポジティブになったというより、課題A後に低く出た状態から回復しただけかもしれません。

　実際、課題A後の差を差し引いて見る別の分析では、研修の効果は有意ではありませんでした。論文は、観測された変化が「研修による本物の態度変容」ではなく、課題Aの持ち越し効果からの回復である可能性が高いと説明しています。AI研修の成果を測るとき、いつアンケートを取るかだけでも結論が変わり得るのです。ここは企業内実験の難しさが出ています。

課題A後から課題B後にかけた、AIへの見方の変化の分布。論文では、研修そのものの効果というより、課題Aの摩擦からの回復である可能性が指摘されている。

AI導入で大切なのは、強制ルールよりも試せる設計

　この論文の面白さは、結論が単純ではないところにあります。「チームでAIを使う手順は悪い」「AIの見方を変える研修は良い」と言い切れるわけではありません。課題Aはペア作業で、課題Bは個人作業です。自由にAIを使ったグループは午前、決められた手順でAIを使ったグループは午後に実施されており、時間帯の影響も完全には切り離せません。さらに、AI採点には長い文章ほど高く評価されやすい傾向があり、課題Aでは自由利用グループの文書が平均740語、手順指定グループが454語と大きく違っていました。

　それでも、実務上の示唆は見えてきます。AIツールを配るだけでは不十分ですが、使い方を細かく縛ればよいわけでもありません。特に、同じ時間に集まる会議や、会話ログをもとにAIへ下書きを依頼するような手順は、現場の環境、参加者の時間、組織の文脈へのアクセスが噛み合わないと、かえって成果を落とす可能性があります。AIが便利だからこそ、人間側の調整コストを軽く見てはいけないのです。

　一方で、AIを「答えを出す機械」ではなく「考えを広げる相手」として扱う研修は、少なくとも今回のような個人の文書作成課題では、使える余地があります。最初から完璧な答えを求めず、文脈を渡し、質問を重ね、出力を検証する。こうした姿勢が、生成AIの実力を引き出しやすくします。今回の研究は、企業のAI導入に必要なのは派手な号令ではなく、どの仕事にどんな支援を置くべきかを小さく試す態度だと教えてくれます。

解説画像：AI導入における設計の考え方。

この記事を共有：