AIニュース

「賢いオウム」か、頼れる相棒か。医療AIとの正しい向き合い方

-

-

  • facebook
  • line
  • twitter
「賢いオウム」か、頼れる相棒か。医療AIとの正しい向き合い方
アイサカ創太(AIsaka Souta)AIライター

アイサカ創太(AIsaka Souta)AIライター

こんにちは、相坂ソウタです。AIやテクノロジーの話題を、できるだけ身近に感じてもらえるよう工夫しながら記事を書いています。今は「人とAIが協力してつくる未来」にワクワクしながら執筆中。コーヒーとガジェット巡りが大好きです。

生成AIは医療分野においても、診断支援や創薬、業務効率化など、その応用への期待は日増しに高まっています。しかし、その輝かしい可能性の裏に潜むリスクを、私たちは正しく理解できているでしょうか。

ワシントン大学のElisha D. O. Roberson博士が発表した論文「Differentiating hype from practical applications of large language models in medicine a primer for healthcare professionals(医療における大規模言語モデルの誇大広告と実用的な応用を区別する - 医療専門家向け入門)」は、医療におけるLLMの誇大広告と実用的な応用を冷静に区別し、医療専門家が知るべき本質を鋭く指摘しています。今回は、この論文に基づき、医療AIがもたらす未来の光と影の両面に迫ります。


LLMとは何か?その仕組みと能力の源泉

そもそも大規模言語モデル(LLM)とは一体何なのでしょうか。多くの人が「人間のように対話できる賢いAI」というイメージを持っているかもしれません。その根幹にあるのは、人間の脳神経を模したニューラルネットワークという技術です。

例えば、収縮期血圧と拡張期血圧のデータを入力し、それが正常血圧か高血圧かを分類するような単純なネットワークから、LLMは何層もの複雑なネットワーク(ディープラーニング)で構成されています。その学習プロセスは、インターネット上のテキストなど、天文学的な量の「トークン」と呼ばれるデータを読み込み、単語や文の繋がりにおける統計的なパターンを学習します。

モデルの性能を左右する「パラメータ」の数は、時に数千億にも達し、この膨大な規模こそが、人間が書いたような自然な文章を生成する能力の源泉となっているのです。近年のLLMの多くはTransformerというアーキテクチャを採用しており、これにより文脈全体を考慮した、より高度な言語処理が可能になりました。


「思考しない統計的な言語のオウム」という本質

しかし、その驚異的な性能とは裏腹に、LLMには決定的な限界が存在します。Roberson博士の論文が指摘するように、LLMは「思考しない統計的な言語のオウム」に過ぎないという事実です。かつてAIの知性を測る指標とされたチューリングテストも、人間らしい応答を生成するよう特別に訓練された現代のLLMの前では、もはや意味をなしません。

ここで論文が紹介する「知的なタコ」の比喩が非常に分かりやすいでしょう。海底ケーブルを流れる電信の信号パターンだけを学習したタコが、見事に応答を返し、相手に人間だと信じ込ませる。しかし、熊に襲われた相手が助けを求めても、タコは「熊」も「助け」も理解できず、的外れな応答しかできない。これこそがLLMの本質なのです。彼らは客観的な真実や現実世界の物事を一切理解しておらず、膨大なデータから学習した確率的なパターンに従って、次に来る単語を予測しているに過ぎません。人命を預かる医療の現場では、この根本的な限界を認識することが重要なポイントとなります。


医療現場で顕在化する4つの深刻なリスク

この「思考しない」という特性は、医療現場において見過ごせない具体的なリスクを生み出します。論文では主に4つの懸念が挙げられています。第一に、機密性の問題です。電子カルテの要約などを軽い気持ちでLLMに投げかければ、その情報がモデルの学習データに取り込まれ、外部に漏洩する可能性があります。実際に米国立衛生研究所(NIH)は、論文の査読プロセスでLLMの使用を禁止しています。

第二に、ハルシネーション(幻覚)が発生する可能性です。LLMは事実に基づかない情報を、さも真実であるかのように生成することがあります。論文では、PSTPIP1遺伝子に関する参考文献を尋ねたところ、実在する著者名や雑誌名を組み合わせた、もっともらしいが実際には存在しない論文情報が出力された例が示されています。

PSTPIP1遺伝子の変異によって引き起こされる疾患の参考文献を聞いているのに、赤いハイライト部分の誤情報が返ってきたのです。特に致命的なのは、論文を一意に特定するためのDOIが、実際には関節リウマチにおける尿中ペプチドに関する全く別の論文を指していた点です。


ChatGPTのハルシネーション例

ChatGPTのハルシネーション例です。


第三に、データ汚染の危険性です。悪意を持つ者が、特定の薬剤を不当に推奨するような偽の情報を大量に学習させ、モデルの応答を歪める可能性があります。そして最後に、訓練データに潜むバイアスの問題。LLMは、学習データに含まれる人種や性別に関する偏見を、そのまま増幅して出力してしまう恐れがあるのです。


天秤AI byGMO

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!

無料で天秤AI by GMOを試す

それでもLLMに期待が集まる理由

これほど多くのリスクを内包していながら、なぜLLMへの期待は絶えないのでしょうか。それは、これらの課題を正しく管理し、限定的な役割で活用すれば、医療を大きく進化させる可能性があるからです。

例えば、プログラミングの専門知識がない医師でも、自然言語で問いかけるだけで膨大な電子カルテのデータから特定の傾向を分析できるようになるかもしれません。また、複数の診療科にまたがる複雑な患者の予約スケジュールを、移動距離や待ち時間まで考慮して最適化することも可能でしょう。さらには、無数の医学論文を横断的に解析し、これまで知られていなかった薬の副作用や相互作用を発見する手助けになることも期待されます。

重要なのは、これらが全て人間の専門家の「補助」として機能するという点です。LLMはあくまで強力なデータ処理ツールであり、最終的な診断や治療方針の決定は、必ず人間が行わなければなりません。


「置き換え」ではなく「補強」という未来

結局のところ、私たちはLLMとどう向き合っていくべきなのでしょうか。Roberson博士の論文は、その答えが「置き換え」ではなく「補強」にあると結論付けています。

LLMを万能の知性と過信し、安易に医療スタッフを置き換えるような判断は、患者を危険に晒すだけでなく、組織に重大な責任問題をもたらしかねません。私たちが目指すべきは、LLMが持つ客観的真実を理解できないという根本的な限界を常に念頭に置き、その統計処理能力を人間の専門知識と批判的思考を補うために活用していく未来です。

AIが出力した情報を鵜呑みにせず、その正しさを検証し、最終的な意思決定の責任を負うのは、あくまで人間です。この原則さえ守られるならば、大規模言語モデルは、医療の質と効率を飛躍的に向上させる、かけがえのないパートナーとなり得るでしょう。


この記事の監修

柳谷智宣(Yanagiya Tomonori)監修

柳谷智宣(Yanagiya Tomonori)監修

ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。

天秤AI by GMOイメージ

最新のAIが勢ぞろい! 天秤AI by GMOなら、最大6つのAIを同時に試せる!

無料天秤AI by GMOを試す