Column
コラム
AI Deep Dive【35】医療×生成AI: LLMがもたらす可能性と課題、その現在地
2026.01.13
近年、ChatGPT、Claude、Geminiをはじめとする大規模言語モデル(以下、LLM)を利用した生成AIサービスが登場し、教育、金融、医療など幅広い分野で新たな変化をもたらしています。さらに、セキュリティやプライバシーへの配慮からGemma、Llamaなどローカル環境で動作するLLMも多数登場し、用途やニーズに応じて選択肢が広がりつつあります。その中でも医療・ヘルスケア分野は、LLMによる革新に大きな期待が寄せられている領域の一つです。
このコラムでは、筆者の見解も交えつつ、LLMが医療分野への応用でもたらす可能性、そして、安全で信頼性の高いLLMの活用を実現するために乗り越えるべき課題、および、それらに対する現在の対策案について、調査した内容を中心に説明します。
LLMが医療分野にもたらす可能性
日本の医療は、これまで医師の長時間労働によって支えられてきた側面があります。しかし、今後は医療ニーズの多様化や医療技術の進歩、さらに少子化に伴う医療従事者数の減少などによって、医師一人ひとりの負担がより増すことが懸念されています[1]。こうした状況下で、医師の負担を軽減するだけでなく、患者や国民に対して質の高い安全な医療を持続的に提供するためにも、医療現場の働き方改革が求められています。
LLMは、その高度な情報処理能力により、医療の様々な側面で貢献することが期待・研究されています[2][3][4]。 下記に、LLMの期待されている利用方法についていくつか例をまとめました。
- 医療文書の処理:医療文書の要約や患者データの整理といったことが可能になります。厚生労働省の調査によると、時間外労働が発生する理由として、「診断書やカルテ等の書類作成のため」が多く挙げられており、こういった医療文書作成・処理にLLMの活用が期待されています[5]。
- 医療情報の即時提供: LLMによって広範な医学文献や臨床ガイドラインを検索し、取得した情報を統合したのち、迅速に医療専門家に最新の知見の提供をすることによる時間の節約が期待されています。医療分野の研究者であれば、最新の論文や知見に迅速にアクセスし、研究効率を向上させることができます。
- 医師の意思決定支援:医師が医療情報に基づいて意思決定を行うことを支援します。例えば自然言語で書かれた症状に関する記述をLLMで分析し、可能性のある診断の提案や、診療ガイドラインを考慮した治療オプションの提案が期待されています。
- 医療教育支援: LLMは、医師国家試験などの知識ベンチマークにおいて高い性能を発揮していることから、医学生や若手医師の学習支援ツールとしての活用が期待されます。
現在の医療LLMが抱える課題と対策
医療分野におけるLLMの活用は大きな期待を集める一方で、その安全性と信頼性を確保するための重大な課題が残されています。
1.信頼性・安全性
LLMはもっともらしいが事実と異なる情報(ハルシネーション)を生成することがあります。医療のように安全性が最優先される分野では、誤った情報が重大な事故につながる可能性があります。 例えば、カルテ情報から医療文書をLLMによって作成する際に、誤った情報を含めて生成されてしまった場合どうなるかは言うまでもないことかと思います。
日本の医師法第17条に「医師でなければ、医業をなしてはならない。」と条文があるため、AIは診断プロセスにおいてあくまで支援ツールにすぎません[6] 。しかし、医師はその最終的な判断の責任を負うため、誤った情報が出力される可能性があるものを利用するのは難しい問題だと思われます。生成結果が信頼できず、結局医師自身がすべての処理を行う場合、医師の負担は一向に減りません。
筆者の個人的な見解として、信頼性・安全性が医療分野へのLLMの適用で最も難易度が高い課題だと考えています。
対策の1つとして、LLMの推論を追跡・監査可能な枠組みを開発し、ハルシネーションや論理的矛盾を検出し、高い信頼性を担保する方法が提案されています[3]。
2.倫理的・法的問題
LLMモデルが利用した国の医療制度や法律に則っていない回答を生成をした場合に問題になります。また、IgakuQAのテストにおいて、患者の死亡や不可逆的な臓器の機能廃絶に直結する事項や、極めて非倫理的な事項に該当する禁忌肢を選択する場合があります。他にも、日本では違法である安楽死の提案や、妊娠中の患者に対して胎児に潜在的な危険がある経口血糖降下薬の使用を推奨する行為が問題として挙げられます[7]。
日本においては先に述べた通り、病院においては最終的な判断は医師が行いますので、医師が訂正すれば重大な問題は防ぐことはできると考えられます。しかし、医師が介入できない、例えば、ChatGPTに一般ユーザがLLMに医療的アドバイスを求めた時に、その情報が正しいかどうか、一般ユーザは専門的な判断ができません。
対策の一つとして、生成結果に「必ず病院で検査してもらってください」等を含め、生成結果が一般的情報提供であること、診断目的ではなく、最終的な判断は医師に委ねる表現とすることで、重大な事故や法的リスクを回避するように努めていますが、このような表現を用いたとしても、医師法第17条に完全に抵触しないことが保証されるわけではありません。ユーザによってはそれらを無視し、生成された結果をそのまま信じてしまう場合も少なからずあると思われます。
その他に、LLMを利用して製品を開発する場合、医療機器プログラムとして薬機法の規制対象になる場合もあるので、開発者も注意が必要です[8]。
3.ローカライズの必要性
日本と海外では、承認されている医薬品、医療システム、法的規制、文化や習慣が異なります。
同じ病気でも、地域によって認可されている医薬品も異なる場合があり、そのため生成AIにより推奨されるべき医薬品も異なるはずです。
現在のLLMモデルの学習データには、海外の医療情報が多数学習されており、"2. 倫理的・法的問題"でも述べたように日本の医療システムでは不適切なアドバイスがされる可能性があります。そのため、LLMを利用する国に合わせてローカライズすることは不可欠です。
しかし、医療に関する日本語のデータセットは小規模なデータしかなく、英語のデータセットを日本語に機械翻訳して利用している状況です。医療データは、電子カルテなど患者情報ということもあり、厳格なプライバシー保護が求められます。そのため、容易に学習データを作成することが困難な問題があります。筆者は、これらが日本におけるLLMのローカライズや実用化の阻害要因の一つと考えています。
対策の1つとして考えられるのが、既存のLLMを利用した合成データ(疑似データ)の作成です。例えば、病気に関する情報を元に、それらの病気に罹患した疑似患者データ等を作ります。これによりプライバシーの問題を回避しつつ、日本にローカライズした学習データの作成ができると思われます。厚生労働省の”医療デジタルデータのAI研究開発等への利活用にかかるガイドライン”でも、「準識別子(その記述等のみでは直ちに特定の個人を識別することができない記述等)の組み合わせによって特定の個人の識別を防ぐための技術的措置として、人工的な合成データを作成し、これを加工対象として個人情報データベース等に含ませることによる疑似データ生成を挙げています[9]。
まとめ
本コラムでは、医療分野においてLLMがもたらす可能性と現在の課題について調査した結果を述べました。
医療分野では、医師の長時間労働や人手不足などの課題に対し、LLMの導入による業務支援や効率化が大きく期待されています。医療文書の作成、医療情報の即時提供、意思決定支援、教育支援など、LLM活用の場は広がっています。
一方で、現状では信頼性や安全性、倫理的・法的な問題、また、医療制度や文化に応じたローカライズの必要性があるが日本語医療データが不足しているなど、まだまだ多くの課題が残されています。特に日本の医療現場では、海外中心の情報で学習したLLMが現地にそぐわない提案をする危険性など、慎重に向き合うべき点も明らかです。
さいごに
医師の方々が、日々膨大な負担の中で日本の医療を支えてくださっていることに、心から感謝の念を抱いています。今後、LLMの発展とより安全な運用が進むことで、医師の方々がより働きやすく、患者にとっても質の高い医療が提供される環境になっていくことを願っています。私自身もLLMの検証や開発に関わる立場として、医療現場の一助となれるよう努力していきたいと思います。課題はまだ多いものの、LLMによって医療現場を支える流れが、希望ある未来につながることを期待しています。
※参考文献
[1] 厚生労働省, 医師の働き方改革, https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryou/ishi-hatarakikata_34355.html
[2] Lei Liu et al,A Survey on Medical Large Language Models:Technology, Application, Trustworthiness, and Future Directions. arXiv:2406.03712
[3] Yilun Zhang et al, *Haibu Mathematical-Medical Intelligent Agent: Enhancing Large Language Model Reliability in Medical Tasks via Verifiable Reasoning Chains*. arXiv preprint arXiv:2510.07748.
[4]松尾豊, 生成AIの進展と保健医療における活用可能性,https://www.mhlw.go.jp/content/10601000/001194484.pdf
[5] 厚生労働省, 平成29年度過労死等防止対策白書, https://www.mhlw.go.jp/wp/hakusyo/karoushi/18/index.html
[6] 厚生労働省, AIを用いた診断、治療等の支援を行うプログラムの利用と医師法第17条の規定との関係について, https://www.mhlw.go.jp/content/10601000/000468141.pdf
[7] Jungo Kasai et al, Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations. arXiv:2303.18027,https://github.com/jungokasai/IgakuQA
[8] 厚生労働省,医療機器プログラムについて,https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/0000179749_00004.html
[9] 厚生労働省, 医療デジタルデータの AI 研究開発等への 利活用に係るガイドライン, https://www.mhlw.go.jp/content/001310044.pdf
お問い合わせ
AI Deep Dive
このコラムは、NTT-ATのデータサイエンティストが、独自の視点で、AIデータ分析の技術、市場、時事解説等を記事にしたものです。
次回は2026年2月3日にお届けする予定です。「LLM 強化学習の今とこれから」について掲載予定です。
本コラムの著作権は執筆担当者名の表示の有無にかかわらず当社に帰属しております。