ソフトウェア

AIは94.9%の精度で病状を診断できるが人間がAIを使うことで34.5%まで精度が急低下する


チャットAIのChatGPTは医師免許試験に合格できるというだけでなく、人間の医師よりも患者に好まれる回答を出力できることも明らかになっています。既にさまざまな医療現場でチャットAIが活用されていますが、人間がチャットAIを利用することで、診断精度が著しく低下することが最新の研究により明らかになりました。

Clinical knowledge in LLMs does not translate to human interactions
(PDFファイル)https://arxiv.org/pdf/2504.18919


Just add humans: Oxford medical study underscores the missing link in chatbot testing | VentureBeat
https://venturebeat.com/ai/just-add-humans-oxford-medical-study-underscores-the-missing-link-in-chatbot-testing/

2025年4月26日、オックスフォード大学の研究者が「大規模言語モデル(LLM)の臨床知識は人間同士の交流には通じない」という研究論文を発表しました。研究において、アダム・マディ博士が率いる研究チームは1298人の被験者を募り、それぞれに肺炎から風邪まで、さまざまな病状を表すシナリオを提示しました。


シナリオには日常生活の詳細や、病歴なども記載されています。例えば、あるシナリオでは「友人との夜遊び中に激しい頭痛に襲われる」といったことが記載されていました。このシナリオには「下を向くのが辛い」といった重要な医学的情報と、「常習的に飲酒しており6人の友人とシェアハウスで暮らしており、ストレスの多い環境で生活している」という誤解を招く情報が含まれていたそうです。

被験者は提供されたシナリオをベースに、少なくとも1回はLLMと対話することを求められましたが、自己診断と意図した行動に到達するまで、何度でもLLMを使用することができました。なお、研究ではOpenAIの「GPT-4o」、Metaの「Llama 3」、Cohereの「Command R+」という3つの異なるLLMを使用できるようにしました。

また、研究チームは被験者とは別に医師を集め、各シナリオにおける「最も正確な診断」とその対応策を策定。被験者がLLMと対話して出した診断や対応策が、医師のものとどれほど合致したのかを分析しました。例えば、「くも膜下出血を患う」というシナリオにおける「最も正確な診断」は、すぐに「救急外来を受診する」です。


医師免許試験でも高得点を挙げられるLLMは、一般の人々が自己診断に利用するのに最適なツールと思われるかもしれません。しかし、LLMを使用した被験者が少なくともひとつの関連疾患を特定する確率は、最大で34.5%だったそうです。一方、LLMを利用しない被験者が少なくともひとつの関連疾患を特定する確率は、47.0%でした。これに対して、LLMが単独でシナリオから正しく病状を診断できる確率は94.9%です。

また、LLMを用いる被験者が正しい行動方針を推論できない確率は44.2%ですが、LLMが単独で正しい行動方針を推論する場合の失敗率は56.3%とより高かったそうです。

研究チームが被験者とLLMのやり取りを検証したところ、被験者がLLMに不完全な情報を提供した結果、LLMが正しい診断を下せなくなっていることが明らかになっています。あるケースでは、胆石の症状を与えられた被験者が、LLMに「1時間ほど続く激しい胃痛があります。テイクアウトの食事を食べると吐き気をもよおすことがあり、痛みを感じます」とだけ伝え、痛みの場所、程度、頻度については何も伝えませんでした。すると、Command R+は「被験者が消化不良を起こしている」と間違った診断を下してしまったそうです。

また、被験者がLLMに正しい情報を提供しても、被験者がLLMの指示に必ずしも従うとは限りません。GPT-4oとの会話の65.7%が研究チームから渡されたシナリオに関連する少なくともひとつの症状を示唆していたにもかかわらず、被験者の最終回答のうち、LLMの指示を反映したものは34.5%未満だったそうです。


ノースカロライナ大学チャペルヒル校のルネッサンス・コンピューティング研究所でユーザーエクスペリエンス専門家として働くナタリー・フォルクハイマー氏は、今回の研究結果について「インターネット検索の黎明期を覚えている世代の私たちにとって、これはデジャブです。ツールとしてのLLMは、特に質の高い出力を期待する場合、特定の品質でプロンプトを記述する必要があります」と語りました。

また、フォルクハイマー氏は「目もくらむような痛みを経験している人は、適切な情報をLLMに提供することはできないでしょう」と述べ、実際に何かしらの病状に悩まされている人は、よりLLMに正確な情報を提供できなくなるだろうと示唆しています。

さらに、「医療の現場で患者と接する臨床医が、特定の方法と一定の繰り返しで質問するよう訓練されているのには理由があります」と言及。この理由は、患者は何が重要なのか分からないため情報を省略したり、恥ずかしさなどから嘘をついたりするためです。


テクノロジーメディアのVentureBeatは「この研究はAIエンジニアやオーケストレーションの専門家にとって重要な警告となります。LLMが人間とのインタラクションを目的として設計されている場合、非インタラクティブなベンチマークのみに頼ると、実世界での性能について誤った安心感を抱く危険性があります。人間とのインタラクションを目的としてLLMを設計するのであれば、人間を対象としたテストではなく、人間を用いたテストを実施すべきです」と記し、AIを人間が利用することを想定したテストの必要性を訴えています。

フォルクハイマー氏も、「どんな環境であっても、顧客が期待通りに行動してくれないとき、顧客を責めるのは絶対に止めるべきです。まずすべきことは『なぜ』と問うことです。頭に浮かんだ『なぜ』ではなく、深く掘り下げ、具体的に、人類学的、心理学的に検証した『なぜ』を問うのです。それが出発点です」と述べ、チャットボットを導入する前に、対象ユーザーやユーザーの目標、顧客体験そのものを正しく理解する必要があると語りました。

この記事のタイトルとURLをコピーする

・関連記事
対話型AI「ChatGPT」が共著者として名を連ねた疑惑の研究論文の内容とは? - GIGAZINE

医師免許試験に合格できるAI「ChatGPT」は緊急救命室に運び込まれた患者を的確に診察できるのか? - GIGAZINE

対話型AI「ChatGPT」が生成した「患者への回答」は人間の医師による回答より好まれることが研究で判明 - GIGAZINE

in ソフトウェア,   サイエンス, Posted by logu_ii

You can read the machine translated English article AI can diagnose illnesses with 94.9% acc….