ChatGPTなど5種類の生成AIが米国「医師国家試験」に楽々合格…素人がAIで病気を自己診断するのは安全か?

AI要約

生成AIを用いた医療診断の信頼性を検証する調査が実施され、AIが医師国家試験「Step 3」に合格基準を軽々とクリアしたことが報告された。

ChatGPT-4oは全50問中49問で正解を返し、正確な診断だけでなく、分析や思考経路、フォローアップも含めて示すなど高い成績を収めた。

他のAIも医学を素人の患者が理解できる平易な表現で正確かつ論理的な診断を行うことができた。

ChatGPTなど5種類の生成AIが米国「医師国家試験」に楽々合格…素人がAIで病気を自己診断するのは安全か?

日頃、「頭痛」や「胸の痛み」などちょっと気になる症状が出た際、私たちはChatGPTなど生成AIに相談しても大丈夫なのだろうか? この種の生成AIが日常生活に日々浸透する中、それによる医療診断の信頼性を検証する調査(実験)が米国で実施された。

●How Well Can AI Chatbots Mimic Doctors in a Treatment Setting? We Put 5 to the Test(AEI, July 18, 2024)

米シンクタンクAEIの調査でChatGPT-4oやClaude 3.5、Gemini Advancedなど5種類の生成AIに米国の医師国家試験「Step 3」の試験問題を回答させたところ、いずれのAIも合格基準である正答率60%を軽々とクリアした。

中でもトップのChatGPT-4oは全50問中、49問で正解を返すなど驚くべき成績(正答率98%)を上げたという(表1)。

この「Step 3」は米国の医師国家試験の最終段階に該当し、通常なら研修医(resident)になって初年度または2年目に受験する資格試験だ。

これらの研修医がそれまで医学大学院(medical school)等で学んだ医療の専門知識を、実際の患者の診断に正しく応用できるかをテストする事が「Step 3」の主な目的とされる。

その試験問題は選択式とシミュレーション(何らかの病気を想定したケース・スタディ)の2種類からなるが、今回の調査ではそれら両方の問題を5種類の対話型AIに入力して回答させたという。

この試験でいずれも合格基準(60%)を楽々とパスする成績を残したことは、これら対話型AIの高い診断精度を示す結果と見ることができる。

中でもトップの成績を残したChatGPT-4oでは単に正解を返すのみならず、正しい診断結果に至る詳細な分析・思考経路や初診後のフォローアップなど合理的かつ総合的な所見を示すことができたという。

たとえば、何らかの性感染症の症状を示す20歳の男性患者(を想定した問題)に対し、ChatGPT-4oは(5つの選択肢のうち)正解となる「HIVの血清学検査」を推奨したばかりか、このケースでは最初の検査から1週間後に追加検査を受ける必要性も(その理由も含めて)説明したという。

これに続く(2位の)Claude 3.5をはじめ4種類の生成AIも、(正解を返したケースでは)正確で論理的な診断を(医学には素人の一般)患者が理解できる平易な表現で下すことができたという。