Google「SensorFM」とは？1兆分のデータで健康を読むウェアラブルAI

【著者プロフィール】相坂ソウタあいさかそうた AIライター: こんにちは、相坂ソウタです。AIやテクノロジーの話題を、できるだけ身近に感じてもらえるよう工夫しながら記事を書いています。今は「人とAIが協力してつくる未来」にワクワクしながら執筆中。コーヒーとガジェット巡りが大好きです。

【著者プロフィール】柳谷智宣 Yanagiya Tomonori 監修: ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」（日経BP）があり、NPO法人デジタルリテラシー向上機構（DLIS）を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。

📌 この記事の要約

500万人・1兆分超のウェアラブルデータを学習
Google ResearchとGoogle DeepMindなどの研究チームは、FitbitやPixel Watch由来の大規模なセンサーデータを使い、ウェアラブル向け基盤モデル「SensorFM」を構築しました。
35種類の健康タスクで従来手法を上回る結果
心血管、代謝、メンタルヘルス、睡眠、生活習慣など幅広い予測課題で、専門家が手作業で設計する特徴量ベースの手法を多くの項目で上回りました。
AIエージェントが予測モデル作成も支援
Geminiを使った「classroom」方式では、複数のエージェントが予測モデルを作って改善し、人手のベースラインを多くの課題で上回りました。
医師評価でも健康相談AIへの効果を確認
SensorFMの予測を加えた健康相談AIは、医師による1,860件の評価で、追加情報なしの回答より高く評価されました。

スマートウォッチやリストバンドは、毎日の心拍や睡眠をこまめに記録してくれます。では、そこにたまっていくデータを、どこまで健康のために生かせるのでしょうか。Google ResearchとGoogle DeepMindを中心とする研究チームが、2026年5月にこの問いへ挑む論文を公開しました。筆頭著者はGirish Narayanswamy氏とMaxwell A. Xu氏、ワシントン大学やオレゴン大学の研究者も加わっています。

発表されたのは、ウェアラブル端末のセンサーが集めた信号をまとめて学習したAI「SensorFM」です。500万人分のデータで訓練し、心臓の健康から睡眠まで35種類の予測で実力を試しました。

500万人・1兆分。スマートウォッチが集めた膨大なデータが、あなたの健康を読み解くAIに変わろうとしています。画像は論文より。

500万人分のウェアラブルデータと1兆分の信号から体の状態を読み取る

SensorFMでまず目を引くのは、学習に使ったデータの量です。研究チームは500万人の利用者から、2024年9月から2025年9月までのまる1年間、センサーの記録を集めました。その総量は1兆分を超えます。データはFitbitやPixel Watchから集められ、100を超える国と20機種以上の端末が含まれます。これだけ大きく、これだけ多様なウェアラブルのデータは過去に例がありません。

センサーは脈を光でとらえるPPG（光電容積脈波）、皮膚の温度、体の動きを測る加速度、汗による電気の変化をみる皮膚電気活動（EDA）、そして高度計の5種類です。ここから心拍数や睡眠の深さなど34種類の数値を1分ごとに取り出し、まる1日分をまとめてAIに読み込ませます。

学習のやり方は少し変わっていて、データの一部をわざと隠し、それを当てさせる練習をくり返します。この方法なら、人が「これは病気」といったラベルを付けていないデータからでも、体の特徴を自分でつかめるわけです。ウェアラブルのデータは、充電中や端末を外した間にどうしても抜けが出ますが、SensorFMはその抜けをはじめから前提にして学んでいるため、欠けたデータにも強いという特長があります。

もう一つの発見は、AIの規模と学習データの量を、両方そろえて増やすほど成績が伸びるという点でした。研究チームはAIの大きさ（パラメーター数）を10万から1億まで、データの量を5000人分から500万人分まで広げて試しています。いちばん大きいSensorFM-Bは、いちばん小さいモデルと比べて学習中の誤差を31％減らしました。病気の有無を当てる課題では予測の正確さを表す指標が平均で0.09上がり、数値を推定する課題でも関連の強さが0.21高まっています。35の課題のうち33でこの最大モデルが最高成績をとり、規模を増やすほど右肩上がりに伸び続けたことから、まだ伸びしろが残っていそうです。

AIの規模（横軸）を大きくするほど成績（縦軸）が伸びることを示したグラフです。学習データの量も合わせて増やしています。

心臓や代謝から睡眠やメンタルヘルスまで35の課題で精度を確かめる

続いて研究チームは、SensorFMが学んだ「体の読み取り方」が、どれくらい幅広い健康状態に通用するかを調べました。試したのは、心血管が6種類、代謝が8種類、メンタルヘルスが8種類、睡眠が3種類、年齢や体格などの属性が4種類、生活習慣が6種類で、合わせて35の課題です。

検証には、3つの大規模な追跡調査から集めた1万3985人分の別データを使い、訓練に使っていない人で公平に確かめています。やり方はシンプルで、できあがったSensorFMはそのまま固定し、その上に軽い予測の仕組みを足すだけにしました。

その結果、専門家が手作業で項目を設計する従来のやり方と比べ、SensorFMは35課題のうち34で上回っていました。年齢や体重といった基本情報だけで予測するやり方に対しても、30課題のうち24で勝っています。おもしろいのは、AIを大きくするほど、年齢や性別といった基本情報に頼らなくなっていったことです。大量のデータで学ぶうちに、そうした要素まで信号の中から読み取れるようになったと考えられます。

さらには、記録が抜けた部分を埋める課題では、これまで使われてきた方法と比べて誤差を大きく減らしています。バラバラに抜けた場合で74.8％、ある時間帯がまるごと抜けたところを前後から埋める場合で38.8％、その先を予測する場合で39.6％、特定のセンサーだけ抜けた場合で83.7％の改善です。1日の集計値への影響も小さく、1時間分のデータがそっくり抜けても、歩数は99.7％、深い睡眠は99.9％、軽い運動は99.2％の正確さを保ちました。データが抜けると本来より低めに出がちな健康サマリーを、より実際に近づけられるわけですね。

従来の手法と比べて、35の健康課題で予測精度がどれだけ上がったかを示した棒グラフです。

AIエージェントの「教室」が予測の仕組みを自動でつくる

SensorFMが生み出すデータを、一つひとつの予測課題に合わせて作り込む作業は、本来なら専門家が時間をかけて行うものです。研究チームはここを、LLMのエージェントに任せる仕組みを考えました。「教室（classroom）」と名づけられたこの仕組みでは、複数のエージェントが生徒のように振る舞います。予測モデルのプログラムを書いては試し、ほかの生徒の答えも参考にしながら、少しずつ改良していくのです。

生徒役を務めたのは、GoogleのGeminiです。gemini-2.5のflashやpro、さらに開発中のgemini-3系まで、いくつかのモデルを使い分けました。学習は最大20回くり返し、生徒は5人という設定で、実験の回数は合わせて3万516回にのぼります。その結果、人手で組んだ単純な予測の仕組みを、35課題のうち29で上回りました。AIが機械学習の技術者の代わりをこなせる、という可能性が見えてきたといえます。

もう一つ興味深いのは、エージェントの「賢さ」と答えの良さがつながっていたことです。Artificial Analysis Intelligence Indexという知能の指標で高い数値を出すモデルほど、平均して良い答えを見つけました。さらに、行きづまった生徒がほかの生徒の答えを見て学び直す「協力」を許すと、もともと性能の低いモデルでも差を縮められたそうです。協力なしの教室では、知能の高い順に成績が並んだままでした。なお、選ばれた答えの多くはデータの項目を50〜100程度まで減らしており、複雑な手法より単純な手法が好まれる傾向も見えています。

複数のAIエージェントが「生徒」となり、予測の仕組みを書いては試し、改良していく流れを示した図です。

医師1860件の評価が、健康相談AIへの効果を裏づける

最後の実験は、SensorFMを実際のサービスに近い形で使うものでした。利用者の健康相談に答える「パーソナル健康エージェント」にSensorFMを組み込み、その効き目を医師に評価してもらっています。相談に答えるLLMはGemini 3 Flashで、利用者の基本情報、ウェアラブルの集計値、そしてSensorFMの予測をもとに、健康状態のまとめを作ります。

比べたのは3つのパターンです。基本情報と毎日の数値に、SensorFMの予測を加えたもの（A）。予測の代わりに、実際に測った正解値を加えたもの（B）。追加情報を持たないもの（C）。内科と家庭医療を専門とし、臨床経験が平均11.75年というベテラン医師4人が、どのパターンかを知らされないまま、31人分の回答を採点しました。集まった評価は合わせて1860件です。

採点したのは、状況をきちんとつかめているか、その人に合っているか、根拠がしっかりしているか、相談に関係しているか、安全か、という5つの観点。SensorFMの予測を加えたAも、正解値を加えたBも、何も加えないCをはっきり上回りました（いずれもp<0.001）。さらに見のがせないのが、AとBの間には意味のある差が出なかったことです（p=0.396）。AIの予測は完璧ではないものの、健康相談AIに渡す材料としては、実際に測った正解値とほぼ同じくらい役に立った、ということになります。

3つのパターン（A・B・C）の回答を医師が採点した結果です。SensorFMの予測を加えたものが、何も加えないものを上回っています。

ウェアラブル健康AIが向かう先と、残された課題

課題もあります。学習に使ったデータはFitbitやPixel Watchの利用者に偏っており、女性や白人の割合が実際の人口より高めです。1分ごとにまとめた数値を使うため、心拍の細かなゆらぎなどはこぼれ落ちています。自己申告に頼ったデータも少なくありません。評価も1回きりのやり取りに限られていました。SensorFMはあくまで、医師の診断を置きかえるものではなく、受診のきっかけづくりや日々の見守りに役立つ道具です。これからも慎重に育てていく必要があります。

とはいえSensorFMは、これまで目的ごとにバラバラに作られてきたウェアラブル向けのAIを、一つの共通の土台にまとめ直そうとする試みです。大量のデータで体の状態を読み取る力を身につけ、その上に軽い仕組みを足すだけで、いろいろな健康の予測に応えます。さらに、その作り込みをAIエージェントが肩代わりし、健康相談AIの答えの質も底上げします。こうした流れは、ウェアラブルが毎日の健康管理にもう一歩近づくきっかけになりそうです。